大语言模型中的涌现现象是不是伪科学?

程序员客栈   2023-05-27 12:53:56

Datawhale干货

作者:平凡@知乎,诺桑比亚大学,在读博士


(资料图)

今天晚上,花了一点儿时间看了两篇文章:

《Emergent Abilities of Large Language Models》[1]

《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]

这两篇讲的都是emergent behavior,即涌现现象。

大规模神经网络下的涌现现象

在机器学习中使用大规模神经网络时,由于增加了参数数量、训练数据或训练步骤等因素,出现了定性上的新能力和性质,这些能力和性质在小规模神经网络中往往是不存在的。

第一篇文章举了这个例子,每个图都可以理解为一个任务,横轴是神经网络的规模,而纵轴是准确率,可以理解为模型的性能。

我们拿图一来看,在10的22次方前,这些模型基本上的性能基本上都很稳定在0附近,而在10的22以后,突然在10的24次方上获得了很大的性能提升,在其他的几个任务上都表现出类似的特征。

意想不到的效果

第二篇文章更是有趣,我直接把推特一位博主的评论引用在这里:

作者发现,当我们训练用网络计算同余加法 a+b = ? (mod c) 时,网络在某个时间突然获得了 100% 准确率。分析发现,神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法!这个算法可以证明是正确的, 反人类直觉的。

从这俩例子里面我的感受是,只要数据量足够且真实,且模型没有硬错误的前提下,不断的训练说不定真的能够产生一些意想不到的效果。

还有就是我觉得人类现在积累的知识并不少,但是系统的少,零星的多,如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话,我觉得有很大概率会让它涌现出意想不到的能力。

甚至可能把人类的生产力解放提前很多。

参考

1.https://arxiv.org/pdf/2206.07682.pdf2.https://arxiv.org/pdf/2301.05217.pdf

相关新闻

猜你喜欢

大语言模型中的涌现现象是不是伪科学?

2023-05-27

胆管结石有什么症状危害_胆管结石有什么症状

2023-05-27

投资北京全球峰会举办

2023-05-27

明年,从杭州西站坐高铁可直达上海!-环球速讯

2023-05-27

接近800万头!新希望公布4月底商品猪存栏数量【附中国猪周期分析】_环球今日报

2023-05-27

焦点资讯:教育部启动就业促进周系列活动 促进高校毕业生更好就业

2023-05-27

450w单晶太阳能板(太阳能板单晶和多晶的区别)|焦点关注

2023-05-27

《大华银行企业展望调查报告(中国篇)》:逾四成中国公司计划布局东南亚 “可持续发展”助力企业成功出海

2023-05-27

新年寄语简短励志诗句_新年寄语简短励志 独家焦点

2023-05-27

每日短讯:他拿着3个弹匣91发子弹去了派出所

2023-05-27

中红医疗:上海滦倴拟减持不超42.5万股公司股份|环球讯息

2023-05-27

爱字繁体字怎么写几画_爱字繁体字怎么写

2023-05-27

财信证券给予紫金矿业增持评级 铜金主业稳步成长 矿业龙头持续扩张

2023-05-27

实现垃圾分类三个100%目标!滨城将这样做……

2023-05-27

虎娘日报:韩国选手夺亚运会冠军可免兵役 管泽元采访力挺LPL

2023-05-26

象州县气象台发布雷电黄色预警信号【III级/较重】【2023-05-26】

2023-05-26

全球速讯:存款超30万,还只懂得存定期?内行人:存对方式有望到手更多利

2023-05-26

5月26日银华沪深股通精选混合净值上涨0.84%

2023-05-26

我国风电光伏发电总装机突破8亿千瓦 世界新消息

2023-05-26

“数字乡村知本论”一线调研丨小山村蹭泰山游客热度火“出圈”?真相来了 信息

2023-05-26

北京市投资促进服务中心面向全球投资者发布中英双语招商引资支持政策服务包

2023-05-26

焦点报道:刚刚,特斯拉赢了!车顶维权女车主,败诉!

2023-05-26

天天快资讯丨轻薄机型开始卷影像,这两款机器各有所长

2023-05-26

15.98万起售前所未有 马自达CX-50行也上市:承诺终身免费质保!

2023-05-26

信用卡逾期怎么办?2022年信用卡逾期新规定有哪些? 天天热推荐

2023-05-26

精彩图集