這是用戶在 2025-7-1 18:43 為 https://36kr.com/p/3334838990318084 保存的雙語快照頁面,由 沉浸式翻譯 提供雙語支持。了解如何保存?

Transformer 八周年,Attention Is All You Need 被引破 18 萬封神

新智元·2025 年 06 月 13 日 20:21
Transformer 已滿 8 歲,革命性論文《Attention Is All You Need》被引超 18 萬次,掀起生成式 AI 革命。

Transformer,八歲了!

開創如今這場生成式 AI 革命的論文《Attention Is All You Need》迎來了第 8 個年頭。

Transformer 催生了 ChatGPT、Gemini、Claude 等諸多前沿產品。

更重要的是, 它讓人類真正跨入了生成式 AI 時代。

人類和生成式 AI 的命運從 2017 年 6 月 12 日週一下午 17 點 57 分開始交匯。

Transformer 的影響依然還在繼續!

到今天為止, 這篇論文的被引次數已經到了 184376!

而在兩年前的6周年時候,被引次數是77926。

僅僅過去兩年時間,被引用次數翻了2倍還多!

網友們也紛紛為 Transformer 8 歲生日送上祝福。

但和所有傳奇故事的開頭都非常相似,這篇論文當年甚至沒有引起人們的 Attention(注意)。

一篇未獲人們「Attention」的傳奇論文

Transformer 發表在 2017 年的 NeurIPS 上,這是全球頂級的人工智慧會議之一。

然而,它甚至沒有獲得 Oral 演講,更不用說獲獎了。

2017 年的 NeurlPS 獲獎論文

從如今的影響力和現實意義來看,谷歌公開這篇文章算得上是「功德無量」。

網友也盛讚谷歌的做事方式,允許任何人完全免費使用,甚至不需要許可證授權。

但隨著生成式 AI 的發展,各家巨頭的加入,谷歌也開始逐漸收回自己的「善意」。

在大模型如今競爭白熱化的當下, 谷歌 DeepMind 要求所有科研人員的生成式 AI 相關論文設定 6 個月禁發期!

DeepMind 的 CEO Hassabis 曾表示:不接受,就辭職,這裡是公司,不是大學校園; 想在大學那樣的環境工作,那就請你離開。

不僅如此,創新成果不發,Gemini 短板也不能提。

或許谷歌一開始也並沒有預料到 Transformer 會影響人類歷史如此深遠。

人人都愛 Transformer

作為一篇嚴肅的機器學習向論文,《Attention Is All You Need》自發佈以來,已經有無數人進行了解讀。

不論是否和機器學習行業相關,人們「渴望」搞清楚目前生成式 AI 的能力究竟來源於哪裡。

不論是國內還是海外,試圖帶你讀懂論文的視頻都有很高的熱度,並且直到今天,「教你學會」、「帶你看懂」等內容依然有非常高的播放量。

科技領域的頂級 KOL Lex Fridman 和 AI 界的頂級科學家 Andrej Karpathy 認為 Transformer 是 AI 世界中「最棒的想法」,沒有之一。

而「XXX Is All You Need」甚至成為了嚴肅學界樂此不疲的玩梗素材。

論文題目直接套用了披頭士名曲《All You Need Is Love》的說法,也正因其簡潔而響亮的表達方式,迅速被 AI 學界和網路社區廣泛引用和調侃——

從「Attention Is All You Need」延伸為「X Is All You Need」的各種變體,形成一整套互聯網 meme 式的幽默結構 。

「標題的成功」還引發了一連串同樣玩梗的論文出現,這些論文的標題或內容都借用了這一俏皮話。

有研究人員甚至製作了一張圖展示了對所有這些論文的綜述,使讀者能夠總結出這些論斷出現的背景及其原因。

Transformer 後時代:AI 八年狂飆

自 Transformer 問世以來的八年間,研究者和工程師們圍繞這一架構進行了大量探索和改進。

Transformer 的發展歷程既包括模型本身的架構優化 ,也包括模型規模的指數級擴展 ,以及向多模態領域的延伸融合。

Transformer 架構天然適合並行計算,這使得研究人員能夠不斷堆高模型參數規模,驗證「大模型是否更聰明」。

事實也證明, 參數和數據規模的擴張帶來了質的飛躍。

從最初論文中的億級參數模型,到 2018 年的 BERT(3.4 億參數)和 GPT-2(15 億參數),再到 2020 年的 GPT-3(1750 億參數),模型大小呈指數級增長。

OpenAI 等機構的研究揭示了清晰的 Scaling Law(規模定律):模型越大,數據越多,性能越佳且湧現出小模型不具備的新能力。

隨著規模擴張,Transformer 模型展現出令人驚歎的零樣本/小樣本學習能力,即無需或只需極少示例就能完成新任務。

模型規模的擴展帶來了 AI 能力的質變,使 Transformer 成為真正的基礎模型(Foundation Model)——一經訓練即可泛化支援眾多下游應用。

不過,每個傳奇故事似乎都沒有那麼 Happy Ending 的結尾。

曾經聯手打造出谷歌最強 Transformer 的「變形金剛們」如今也已分道揚鑣。

8 年前一篇不起眼的論文,卻徹底開啟了人類的生成式 AI 時代。

這個被忽視的小論文,徹底開啟了 AI 的大時代。

它的故事還遠遠沒有結束。

目前的 AI 仍然繼續在 Transformer 架構基礎上狂飆突進。

Transformer 的影響力還能持續多久,也許只有等 AGI 實現那天來回答了。

但無論未來 AI 技術如何演變,Transformer 已經在歷史上留下永久且深刻的印記。

參考資料:

Transformer 全新里程碑! 誕生 6 年,開山之作被引近 8 萬,沒奪下 NeurIPS 最佳論文,卻徹底改變 AI 界

Transformer 八子全部叛逃谷歌! 最後一位共同作者月底離職創業

本文來自微信公眾號 “新智元”,作者:新智元,36 氪經授權發佈。

+1
101

好文章,需要你的鼓勵

參與評論
評論千萬條,友善第一條
后參與討論
提交評論0/1000
36氪
36氪

企服圈子

軟體選型經驗交流社區
36氪企服點評訂閱號
36氪企服點評服務號

企服軟體推薦

找軟體,先查用戶評分榜 查看
顧問1對1推薦軟體免費服務 體驗

下一篇

5000 次風暴,谷歌訓出 AI 預言家,天氣預報 ChatGPT 時刻? AI 驅動的氣旋預測

2025-06-13

36 氪 APP讓一部分人先看到未來
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业