你的位置: 首页 > 实时讯息 >

Transformer八周年,Attention Is All You Need被引破18万封神

0次浏览     发布时间:2025-06-13 20:27:00    

Transformer,八岁了!

开创如今这场生成式AI革命的论文《Attention Is All You Need》迎来了第8个年头。

Transformer催生了ChatGPT、Gemini、Claude等诸多前沿产品。

更重要的是,它让人类真正跨入了生成式AI时代。

人类和生成式AI的命运从2017年6月12日周一下午17点57分开始交汇。

Transformer的影响依然还在继续!

到今天为止,这篇论文的被引次数已经到了184376!

而在两年前的6周年时候,被引次数是77926。

仅仅过去两年时间,被引用次数翻了2倍还多!

网友们也纷纷为Transformer 8岁生日送上祝福。

但和所有传奇故事的开头都非常相似,这篇论文当年甚至没有引起人们的Attention(注意)。

一篇未获人们「Attention」的传奇论文

Transformer发表在2017年的NeurIPS上,这是全球顶级的人工智能会议之一。

然而,它甚至没有获得Oral演讲,更不用说获奖了。

2017年的NeurlPS获奖论文

从如今的影响力和现实意义来看,谷歌公开这篇文章算得上是「功德无量」。

网友也盛赞谷歌的做事方式,允许任何人完全免费使用,甚至不需要许可证授权。

但随着生成式AI的发展,各家巨头的加入,谷歌也开始逐渐收回自己的「善意」。

在大模型如今竞争白热化的当下,谷歌DeepMind要求所有科研人员的生成式AI相关论文设定6个月禁发期!

DeepMind的CEO Hassabis曾表示:不接受,就辞职,这里是公司,不是大学校园;想在大学那样的环境工作,那就请你离开。

不仅如此,创新成果不发,Gemini短板也不能提。

或许谷歌一开始也并没有预料到Transformer会影响人类历史如此深远。

人人都爱Transformer

作为一篇严肃的机器学习向论文,《Attention Is All You Need》自发布以来,已经有无数人进行了解读。

不论是否和机器学习行业相关,人们「渴望」搞清楚目前生成式AI的能力究竟来源于哪里。

不论是国内还是海外,试图带你读懂论文的视频都有很高的热度,并且直到今天,「教你学会」、「带你看懂」等内容依然有非常高的播放量。

科技领域的顶级KOL Lex Fridman和AI界的顶级科学家Andrej Karpathy 认为Transformer是AI世界中「最棒的想法」,没有之一。

而「XXX Is All You Need」甚至成为了严肃学界乐此不疲的玩梗素材。

论文题目直接套用了披头士名曲《All You Need Is Love》的说法,也正因其简洁而响亮的表达方式,迅速被AI学界和网络社区广泛引用和调侃——

从「Attention Is All You Need」延伸为「X Is All You Need」的各种变体,形成一整套互联网meme式的幽默结构 。

「标题的成功」还引发了一连串同样玩梗的论文出现,这些论文的标题或内容都借用了这一俏皮话。

有研究人员甚至制作了一张图展示了对所有这些论文的综述,使读者能够总结出这些论断出现的背景及其原因。

Transformer后时代:AI八年狂飙

自Transformer问世以来的八年间,研究者和工程师们围绕这一架构进行了大量探索和改进。

Transformer的发展历程既包括模型本身的架构优化,也包括模型规模的指数级扩展,以及向多模态领域的延伸融合。

Transformer架构天然适合并行计算,这使得研究人员能够不断堆高模型参数规模,验证「大模型是否更聪明」。

事实也证明,参数和数据规模的扩张带来了质的飞跃。

从最初论文中的亿级参数模型,到2018年的BERT(3.4亿参数)和GPT-2(15亿参数),再到2020年的GPT-3(1750亿参数),模型大小呈指数级增长。

OpenAI等机构的研究揭示了清晰的Scaling Law(规模定律):模型越大,数据越多,性能越佳且涌现出小模型不具备的新能力。

随着规模扩张,Transformer模型展现出令人惊叹的零样本/小样本学习能力,即无需或只需极少示例就能完成新任务。

模型规模的扩展带来了AI能力的质变,使Transformer成为真正的基础模型(Foundation Model)——一经训练即可泛化支持众多下游应用。

不过,每个传奇故事似乎都没有那么Happy Ending的结尾。

曾经联手打造出谷歌最强Transformer的「变形金刚们」如今也已分道扬镳。

8年前一篇不起眼的论文,却彻底开启了人类的生成式AI时代。

这个被忽视的小论文,彻底开启了AI的大时代。

它的故事还远远没有结束。

目前的AI仍然继续在Transformer架构基础上狂飙突进。

Transformer的影响力还能持续多久,也许只有等AGI实现那天来回答了。

但无论未来AI技术如何演变,Transformer已经在历史上留下永久且深刻的印记。

参考资料:

Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界

Transformer八子全部叛逃谷歌!最后一位共同作者月底离职创业

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

相关文章

  • 人文学科何以式微?黄峪、茹国烈、陈秋实共话《文化的故事》 人工智能崛起,AI翻译能完全取代人类吗?文科式微,人文学科还有未来吗?人们常常说起“文化”二字,但文化究竟是什么,又在我们的生活中发挥了什么作用?7月25日晚上,由译林出版社主办的《文化的故事:从岩画艺术到韩国流行音乐》(下文简称《文化的故事》)新书分享会在广州方所书店顺利举行。译者、跨文化研究学者
  • 公募基金管理规模再创新高 非货排位强者恒强 7月21日,随着公募基金二季报披露完毕,公募基金交出了一份不错的成绩单。天相投顾数据显示,截至2025年二季度末,公募基金整体规模和非货规模双双创出历史新高,分别超34万亿、20万亿。多家基金公司二季度管理规模增长超千亿元。公募基金管理规模再创新高天相投顾数据统计显示,共162家公募基金管理人披露了
  • 盘点| 杨瀚森夏季联赛表现惊艳 有望出战男篮亚洲杯 北京时间19日,据波特兰当地媒体透露,开拓者不会再安排中国球员杨瀚森出战夏季联赛剩余的比赛,因为球队已经对他完成了考察。至今,杨瀚森共出战了4场夏季联赛,场均得到10.8分、5.3篮板、3.8助攻、2.3封盖。接下来,杨瀚森将有望出战8月的男篮亚洲杯。开拓者在今年选秀大会上以首轮的16顺位选中杨瀚森
  • 中国资产,大爆发! 消息利好刺激下的科技股攀升带动港股市场今日强势收涨。截至收盘,恒生指数涨1.60%,创今年3月以来新高;恒生科技指数涨2.80%,刷新今年6月以来高点。对于今日港股市场行情,有分析人士指出,今日行情的核心驱动力来自AI算力需求的持续爆发,恒生指数的成交额放大至2880亿港元以上,市场情绪回暖迹象明显
  • 新华时评丨以文明对话共绘人类文明新图景 新华社北京7月13日电 题:以文明对话共绘人类文明新图景新华社记者董越 朱婉君7月10日至11日,全球文明对话部长级会议在北京举行。不同语言、不同肤色、不同文化背景的中外嘉宾深入交流、凝聚共识,成为文明互鉴的生动缩影。在世界百年未有之大变局加速演进的背景下,加强文明对话、践行全球文明倡议,已成为国际
  • 华人2亿美元年薪破界,AI竞赛冰火两重天 有消息称,Meta此次从苹果挖角庞若鸣,主要是为其新设立的“超级智能实验室”壮大研发团队文|《财经》特约撰稿人 金焱 发自华盛顿编辑 | 苏琦 据媒体报道,Meta近日向前苹果AI/ML(人工智能/机器学习)基础模型团队负责人、华人学者庞若鸣(Ruoming Pang)抛出了超2亿美元年薪。为争取庞
  • 传高盛等正在筹划立讯精密在香港的股票发售 观点网讯:7月2日,据资本市场消息,中金公司、中信和高盛正在筹划立讯精密在香港的股票发售。据获悉,立讯精密或寻求在香港上市募资逾10亿美元。过往报道,今年4月2日,报道援引消息人士称,苹果供应链龙头企业立讯精密正考虑今年在香港上市,目前正与投行商讨赴港上市事宜。初步预计融资规模为20亿至30亿美元。
  • 滥用手机用户数据,谷歌被判赔偿超3亿美元 新华社洛杉矶7月1日电(记者谭晶晶)美国加利福尼亚州圣克拉拉高等法院的一个陪审团1日裁定,谷歌公司未经用户许可滥用安卓手机用户数据,需向加州的安卓手机用户支付超过3.146亿美元赔偿金。这一案件的原告于2019年代表约1400万名加州用户在位于该州圣何塞市的圣克拉拉高等法院提起集体诉讼。原告说,谷歌