过早客
  • 首页
  • 节点
  • 成员
  • 广告投放
  • 登录
  • 注册

看了一下ds-v3的论文,发现这个时代依然是transformer的时代

IT技术 • gasi • 发表于 5 月前 • 最后回复来自 find_right • 5 月前

ds为了计算效率将MHA换成了MLA,将MoE做一下小改动,MTP这个想法很不错,某种意义上算是降低n-gram的生成loss来保障生成内容的连贯性。ds的成功更大的体现在工程技术上的成功,一次完整的pre-training只需要500w刀。总的来说,现在的AI发展路径依然是通过使用更多的参数更深的网络去拟合更复杂的F(x),所谓的AGI概念更像是资本为了垄断搞出来的趋势,对于独立的问题领域来说,数据集是小的,模型自然也是小的,AI的路径更多的应该是如何调整模型结构和算法原理让模型用更少的参数习得数据里的pattern,这才是福泽万民的路。

加入收藏 新浪微博 分享到微信 ❤赞 2589 次点击 0 人赞 3 人收藏

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

共收到4条回复
cc 5 月前 湖北省 #1 赞 0

agi 跟现在的dl或者rl最大的区别在于人类活动的广度很大很离散,而现在机器学习不管模型有多大,本质上依然是一个独立的问题领域,一个接近无限的知识库,我觉得你说的模型结构的发展,也是这样的独立方向

理论上问题领域可以尽力扩展直到覆盖所有人类的意识与社会的活动,但这是不现实的

agi可能需要人加ai一起,人来编辑广度的框架,每个问题领域交给ai实现,这样可以期望agi的实现

Always_Y 5 月前 海南省 #2 赞 0

那也是Attention的时代,《Attention is All You Need》,Transformer 的开山之作,2017年发表,文章名即说明,无需多言。

shagb8 5 月前 湖北省 #3 赞 0

大语言模型的本质,是文字计算器。
数字计算器,输入数字计算公式,输出数字计算结果。大语言模型,输入文字排列组合,输出文字排列组合的计算结果。
由于数学是精确的,数字计算器的结果就是精确的。文字本身是开放的,文字计算的结果也是开放的。
多模态,图片视频音频,这些都类似文字,正如电影 音乐和书籍的关系,都是信息的载体形式。

find_right 5 月前 湖北省 #4 赞 0

没看懂,什么叫依然是? 还有其他的?

这个很旧吗

请绑定手机号后,再发言,点击此处
Guozaoke.com—源自武汉的高端交流分享社区
相关主题
真的不喜欢python
大家现在新项目用java的话,用哪个版本的jdk
推荐大家使用 claude code + qwen3-coder 可以抛弃 Cursor了
实践 react router v7
大家用的什么AI code啊,有无白嫖途径?
CurSor不能使用claude模型了??????
claude真不错
Claude Code 公益镜像站白票使用教程
搞了个网站,帮助大家找到自己想要的互联网资源!
能搭Wordpress的国内服务器求推荐

过早客微信公众号:guozaoke • 过早客新浪微博:@过早客 • 广告投放合作微信:fullygroup50 鄂ICP备2021016276号-2 • 鄂公网安备42018502001446号