注意力就是一切

2017 年 6 月 12 日，星期一，美国西岸时间晚上。arXiv.org 的机器学习分区冷清，周一通常没什么流量。一篇编号 1706.03762 的论文被悄悄提交，作者共八人，全部来自 Google 的不同团队——Google Brain、Google Research、多伦多大学借调。标题只有一句话，几乎像一句挑衅：

Attention Is All You Need.

论文不长，只有 15 页正文。摘要第一句开门见山："主流的序列转换模型都基于包含编码器和解码器的复杂循环或卷积神经网络。我们提出一种新的、简单的网络架构，Transformer，完全基于注意力机制，彻底摒弃循环和卷积。"在机器翻译的 WMT 2014 英德任务上，这个新架构跑出了 28.4 BLEU，比当时集成模型的最好成绩高出 2 分以上；英法任务上单模型 41.8 BLEU，训练时间只用了 8 块 P100 GPU 的三天半。

这三天半是 AI 历史上最便宜的三天半。

八位作者排在作者表上的顺序——Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Łukasz Kaiser、Illia Polosukhin——后来被许多技术史学家反复凝视，像凝视美国建国者那张签字名单。作者栏下方有一个小注脚：* Equal contribution。这八个人没有通讯作者，没有首席，没有"带队老师"。八个平级的名字，按某种他们自己约定的顺序排。

他们不知道自己写了什么。没有人知道。当年 NeurIPS 的审稿意见里，有一位 reviewer 给这篇论文打了"弱接收"，理由是"实验不够充分，不确定这种架构能否扩展到序列以外的任务"。也没有人料到，十年之后，这篇论文的被引数会超过十七万次，成为整个深度学习时代被引用最多的技术论文之一。

Transformer 的核心其实只有一句话：**用 attention 代替 recurrence。**传统的 RNN 必须从左到右一个字一个字读，读到句末的时候，开头的内容早就被遗忘了一半；Transformer 让每个位置的词同时注意序列里所有其他词，用矩阵乘法一次性算出"谁和谁相关"。这叫 self-attention——"自注意力"。论文里推导的那个核心公式，Attention(Q, K, V) = softmax(QKᵀ/√dₖ)V，后来几乎每本深度学习教科书都要印一遍。

作者之一的 Noam Shazeer 是一个奇人。他本科普林斯顿，从 2000 年就加入 Google，写过 Google 最早的拼写检查器的一部分，中间因为抑郁症休过几年，复出后一头扎进机器学习。Shazeer 在写 Attention Is All You Need 的时候已经 41 岁，是团队里最年长的一个。同事后来回忆说，他是"那种一晚上可以把整个模型重构一遍的工程师"。

但没有人在 2017 年意识到这件事。Transformer 在发表后的第一年里被当成"另一种翻译架构"，和 ConvS2S、ByteNet 并列。真正让它从论文飞出来的，是 OpenAI——那家当时还叫"非盈利研究机构"的公司——在 2018 年把它拿去做了一件看似微不足道的事情：**拿 Transformer 的解码器部分，在普通文本上做自回归预训练。**那件事的名字叫 GPT-1。

不过这是下一章的事情。回到 2017。

那一年还发生了一件让所有人震撼的事。 10 月 19 日，DeepMind 在《Nature》上发表了 AlphaGo Zero 的论文——《Mastering the game of Go without human knowledge》。这个版本的 AlphaGo 和首尔那只完全不同。它没有用任何一步人类棋谱。它从完全随机的走子开始，和自己下棋，三天下了 490 万局。三天之后，它以 100:0 战胜了 2016 年击败李世乭的那个版本。21 天后，它超过了 AlphaGo Master——那是 2017 年 5 月在乌镇让柯洁崩溃的版本。40 天后，它超过了所有之前的版本。

论文第一作者 David Silver 在发布会上说："AlphaGo Zero 发现了人类围棋史上所有主要的定式，然后又抛弃了其中一部分，发明了自己的定式。"

那一刻，人类意识到一件事：我们花了几千年积累的经验，在某些狭窄领域里，对机器来说只是一个不太干净的初始化。

两个月后，DeepMind 又发了 AlphaZero——在 AlphaGo Zero 的基础上，同一套算法不改一行，同时学会了围棋、国际象棋、日本将棋。国际象棋那边，AlphaZero 用 4 小时自我对弈，就超过了 Stockfish——一个人类写了二十年、由数百万行精心调参的 C++ 代码堆起来的顶级引擎。

**这是让整个计算机象棋界沉默的时刻。**从 1997 年深蓝击败卡斯帕罗夫到 2017 年，人类在象棋引擎上投入的智力，被一套不到一千行核心代码的通用算法在 4 小时里赶超。

2017 年还发生了许多事：1 月，Libratus 在宾州的 Rivers Casino 用 20 天、12 万手德州扑克赢了四位顶级人类选手，净胜约 176 万美元筹码；同月 DeepStack 在 Science 发论文，证明 AI 在无限注德扑里达到专家水平。1 月，Facebook 的 Yann LeCun 在达沃斯上说："深度学习还处在非常原始的阶段。" 6 月，Uber 的 Anthony Levandowski 因和 Waymo 的自动驾驶官司被解雇；12 月，Nvidia 发布 Tesla V100——那张在此后五年里驱动了半个 AI 产业的 GPU。

但 2017 年最重要的一个事实不在新闻里。那是一个非常技术性的、只有专家才看得出来的事实：Transformer 架构可以扩展到几乎任意规模。

RNN 不行。LSTM 不行。CNN 勉强。但 Transformer 的每一层都是矩阵乘法——它完美匹配 GPU 的并行计算模式。你把模型加大一倍，它的训练速度几乎不下降。你把数据加大十倍，它的能力还在上升。这条"scaling law"，在 2017 年 6 月那个星期一的论文里没有被写出来，但它在数学上已经埋在那里。

**2017 年的故事，是人类教会了机器思考的方式，然后机器不再需要人类了。**AlphaGo Zero 抛弃了人类棋谱，Transformer 抛弃了人类对语言结构的所有精心设计。这两件事发生在同一年，不是巧合，是一个时代的顶棚被悄悄抬起。

那八位作者后来陆陆续续全部离开了 Google。

Ashish Vaswani 和 Niki Parmar 2021 年一起创办了 Adept AI，后来 Vaswani 又创办 Essential AI。
Noam Shazeer 2021 年离开 Google 创办 Character.AI，2024 年被 Google 以 27 亿美元的"反向收购"请了回来主持 Gemini。
Aidan Gomez——八人里最年轻的一位，论文发表时还在多伦多大学读本科——2019 年创办 Cohere。
Jakob Uszkoreit 创办 Inceptive，做 mRNA 药物设计。
Llion Jones 去了东京，创办 Sakana AI。
Łukasz Kaiser 去了 OpenAI，后来成为 o1 推理模型的核心作者之一。
Illia Polosukhin 创办 NEAR Protocol，做区块链。
只有一个人留在了学界和 Google 的外围：Niki Parmar 后来回忆那一年，说"我们八个人当时只是想写一篇好论文，然后去参加一次 NeurIPS，没人觉得它会改变什么"。

Pitchbook 在 2025 年估算，这八位作者离开 Google 之后创办的公司，总估值在 41 亿美元以上。但这个数字不重要。重要的是，Google 失去了它最会写论文的那代人。Google 发明了 Transformer，OpenAI 和 Anthropic 用 Transformer 发明了 ChatGPT 和 Claude。

历史不原谅这种错位。