大语言模型中的涌现现象是不是伪科学?_当前热文
- 程序员客栈
- 2023-06-10 20:18:59
Datawhale干货
作者:平凡@知乎,诺桑比亚大学,在读博士
【资料图】
今天晚上,花了一点儿时间看了两篇文章:
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
这两篇讲的都是emergent behavior,即涌现现象。
大规模神经网络下的涌现现象在机器学习中使用大规模神经网络时,由于增加了参数数量、训练数据或训练步骤等因素,出现了定性上的新能力和性质,这些能力和性质在小规模神经网络中往往是不存在的。
第一篇文章举了这个例子,每个图都可以理解为一个任务,横轴是神经网络的规模,而纵轴是准确率,可以理解为模型的性能。
我们拿图一来看,在10的22次方前,这些模型基本上的性能基本上都很稳定在0附近,而在10的22以后,突然在10的24次方上获得了很大的性能提升,在其他的几个任务上都表现出类似的特征。
意想不到的效果第二篇文章更是有趣,我直接把推特一位博主的评论引用在这里:
作者发现,当我们训练用网络计算同余加法 a+b = ? (mod c) 时,网络在某个时间突然获得了 100% 准确率。分析发现,神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法!这个算法可以证明是正确的, 反人类直觉的。
从这俩例子里面我的感受是,只要数据量足够且真实,且模型没有硬错误的前提下,不断的训练说不定真的能够产生一些意想不到的效果。
还有就是我觉得人类现在积累的知识并不少,但是系统的少,零星的多,如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话,我觉得有很大概率会让它涌现出意想不到的能力。
甚至可能把人类的生产力解放提前很多。
参考
1.https://arxiv.org/pdf/2206.07682.pdf2.https://arxiv.org/pdf/2301.05217.pdf关键词:
- 大语言模型中的涌现现象是不是伪科学?_当2023-06-10
- 1158万人!今年高校毕业生数量再创历史新高2023-06-10
- 黑龙江12件涉黑涉恶案件集中公开宣判85人获2023-06-10
- 播报:日本羽田机场两架飞机疑似发生碰撞2023-06-10
- 今日播报!怎么查高考生录取状态_怎么查高考2023-06-10
- 我有什么?你有什么?我们一起能做什么?_2023-06-10
- 佳缘科技:6月8日接受机构调研,国寿安保、2023-06-10
- 各地税务部门不断优化服务 前5个月新办涉2023-06-10
- 观热点:高质量发展调研行 | 在智慧港口2023-06-10
- 全球热讯:2023福布斯全球2000强放榜,中国2023-06-10
- 全球观热点:计划今年完成4座,浦东“十四2023-06-10
- 全球微动态丨日本羽田机场两架飞机疑似发生2023-06-10
- 无畏契约东京大师赛6月11日开打,两支中国2023-06-10
- 全球快消息!25岁女生弃世界500强企业工作2023-06-10
- 世界今亮点!医生谎称手术成功致患者身亡:2023-06-10
- 女生拒绝下班后团建第二天被开除:正在进行2023-06-10
- 国家出手依法惩治网暴!律师:网络应实名化2023-06-10
- 喜讯!青岛市崂山区散打运动协会正式成立2023-06-10
- 伍咏薇美得太高调,玫红色连衣裙大秀曼妙身2023-06-10
- “千万工程”调研行|宁波湾底村:把村庄整2023-06-10
- 新华全媒+丨现场直击:中原麦收一夜|环球看2023-06-10
- 全球最资讯丨上海交警双管齐下治理机动车“2023-06-10
- “纪念北京建都870周年考古成果展”在北京2023-06-10
- 比利时将向乌克兰提供新一批军事支持2023-06-10
- 【全球快播报】哪个云盘免费空间最大2023-06-10
- 古体诗和近体诗的区别 律诗和绝句的区别 2023-06-10
- 每日资讯:于明加工作室微博 于明加微博2023-06-10
- 胡赳赳:论贝克莱的“心外无物”观念 当前2023-06-10
- 新罗:以实干实效推进流域综合治理和统筹发2023-06-10
- 前5个月全国累计新办涉税经营主体643.5万户2023-06-10