涌现

2020 年 5 月 28 日，arXiv 编号 2005.14165。论文标题：《Language Models are Few-Shot Learners》。第一作者是一个在 OpenAI 算比较年轻的研究员 Tom B. Brown，后面跟着 30 位合作者——整整一张 A4 纸才印得下。这份作者表里的名字后来几乎人人都成了 AI 历史的重要注脚：Benjamin Mann、Nick Ryder、Jared Kaplan、Dario Amodei、Sam McCandlish、Alec Radford、Ilya Sutskever……

论文描述的是 GPT-3。

1750 亿参数。

这个数字比 GPT-2 大了 116 倍，比当时公开的任何一个非稀疏语言模型都要大 10 倍。训练数据约 5700 亿 token，主要来自 Common Crawl、WebText2、两个图书语料库和英文维基。训练用了约 3.14 × 10²³ FLOPs 的算力，耗费预计在 500 万到 1200 万美元之间——那是 AI 历史上第一次，训练一个单独模型的成本超过了一个中型实验室一整年的预算。

论文里每一个具体数字都像在和读者打赌：我们已经走到了另一边。

但 GPT-3 最让人吃惊的不是它的规模，而是它展示出的一种没有被设计过的能力。论文的核心发现用一句话概括就是："如果模型足够大，你不用再微调。"

此前用 BERT、用 GPT-2，做任何下游任务都要准备几千到几万条标注数据，在预训练好的模型上做梯度下降的微调。GPT-3 说不用。你只需要在 prompt 里给它三五个例子（few-shot）——甚至只给一个例子（one-shot）、甚至一个例子都不给只写任务描述（zero-shot）——它就能学会一件新事。模型的参数完全没变。它是在输入的上下文里"学习"的。

这个现象当时没有名字。OpenAI 在论文里小心地叫它 "in-context learning"（上下文内学习）。两年之后，这个能力被 Google 的一篇论文正式命名为 emergent ability——"涌现能力"：一种在小模型上根本不存在、只有当规模突破某个阈值时才会突然出现的能力。

2020 年春天，人类第一次看到一种机器能力不是被设计出来的，而是"从规模里长出来的"。

GPT-3 论文里有一张图让无数研究者背脊发凉：模型在许多任务上的表现，随着参数量的增长呈现一种几乎是阶跃式的跃迁——参数从 100 亿到 1000 亿之间，某个能力从"完全做不到"变成"做得比随机好很多"。没有人在训练时告诉它要学会三位数加法。没有人告诉它要学会把英语翻译成法语。没有人告诉它要学会在一段代码的注释后面补完函数体。它自己学会了。

Ilya Sutskever 两年前押上的那个赌注——规模本身就是智能——在 GPT-3 上兑现了。

6 月 11 日，OpenAI 发布了 GPT-3 的 API。他们没有像 GPT-2 那样公开权重，而是走向了另一个极端：一个私人内测的 REST API。你要先在网站上填表，解释你打算用 GPT-3 做什么，然后等 OpenAI 的邮件。邮件一般不会来——2020 年夏天的内测名单几乎进不去。少数拿到访问权的开发者开始在 Twitter 上发演示截图："我让 GPT-3 写了一个 React 组件""我让 GPT-3 写了一首十四行诗""我让 GPT-3 伪装成弗洛伊德解我的梦"——每一条都有几万个转发。

一位叫 Manuel Araoz 的阿根廷开发者用 GPT-3 写了一篇博客文章，发到一个加密货币论坛上，获得了几百条严肃回复。几天后他揭示整篇文章——包括里面的论据、代码示例、自嘲式的结语——都是 GPT-3 写的。那是第一次，互联网上的一段讨论被一个 AI 成功地"卧底"了。

7 月 17 日，一个叫 gwern 的匿名研究者在自己的博客上发了一篇几万字的长文，标题朴素：GPT-3 Creative Fiction。他在里面收录了自己用 GPT-3 生成的几百段文字——英式悬疑短篇、古风俳句、模仿博尔赫斯的寓言、模仿博尔赫斯模仿卡夫卡的寓言。读者看完之后在评论区里写："这比我读过的 80% 的当代严肃文学要好。"

那是人类第一次，对一台机器产生审美上的警惕。

9 月 22 日，微软宣布获得 GPT-3 的独家许可——不是独家使用，而是独家的"源代码和权重访问"。换句话说：全世界只有一家公司（OpenAI 外加微软 Azure）拥有 GPT-3 本体。 这一步完成了 2019 年 10 亿美元投资未竟的一半。前沿 AI 从此不再是一种开放的学术产品，而是一种战略性的、受控发放的基础设施。

2020 年 11 月 30 日，CASP14 国际蛋白质结构预测竞赛在伦敦（因疫情改为线上）公布结果。

DeepMind 的 AlphaFold 2 在 92 个难题蛋白结构上，中位数 GDT_TS 得分 92.4——一个可以简单翻译为"准确度达到了实验仪器测量水平"的数字。此前 CASP13 的冠军是 60 分左右，已经算历史最高；上一届的最佳表现大部分还徘徊在 40 分。把 AlphaFold 2 和第二名放在一起算 z-score 总分，AlphaFold 2 得了 244，第二名 90.8——它几乎不属于这个榜单。

CASP 的主持人 John Moult——这位生物信息学家从 1994 年起就组织这个两年一度的比赛——在新闻发布会上说的话被反复引用：

In some sense, the protein folding problem has been solved.

从某种意义上说，蛋白质折叠问题已经被解决了。

Moult 说这句话的时候 74 岁。他半辈子在做这个问题。整个结构生物学界半个世纪以来没能单独解决的问题——"给一条氨基酸序列，预测它会折叠成什么三维形状"——在 2020 年 11 月被一台机器在几个星期内攻破。AlphaFold 2 主导团队第一作者是年轻的 John Jumper，他博士期间研究分子动力学，加入 DeepMind 才三年。Demis Hassabis 在发布会上的表情格外克制——这个团队很清楚自己刚刚做完的事情，会在接下来的十年里颠覆整个药物研发、疾病研究、合成生物学领域。

GPT-3 和 AlphaFold 2，一个月之间先后落地。 一个让机器学会了组合人类的符号系统；一个让机器学会了组合自然界的氨基酸序列。2020 年 11 月之后，整个"前沿科学"的定义悄悄换了：从这一刻起，"用 AI 做科研"不再是一个姿态，而是一个已经被两次证明的范式。

那一年当然主要是疫情之年。 1 月 23 日武汉封城；3 月 11 日 WHO 宣布全球大流行；3 月到 4 月，意大利的医院走廊里躺满来不及处理的尸体。整个 2020 年，全球约有 180 万人因 COVID-19 死亡。经济停摆，航班取消，线下会议消失。所有的技术演讲、论文发布、内测邀请——都在 Zoom 里发生。

但这场疫情的另一面是：**它第一次让 AI 真正地被普通人需要。**辉瑞和 BioNTech 的 mRNA 疫苗研发过程中大量用到了结构预测；Moderna 的序列设计优化用到了机器学习。医学影像里的 CT 判读、流行病学的传播预测、呼吸机的调度——AI 在一个它本来还是"论文里的东西"的阶段，被硬拽进了医院和政府的决策流程。2020 年是一种双重的加速：人类世界在收缩、停顿、哀悼；AI 世界在膨胀、换挡、奠基。

2020 年还有一些分散但重要的小事。 6 月，Geoffrey Hinton 在一次采访里说："深度学习能做一切人类能做的事情，包括共情。这是 AI 研究员说的，不是 AI 说的——请注意区分。"8 月，OpenAI 宣布 GPT-3 已被超过 300 个应用接入；同月，英伟达宣布以 400 亿美元收购 ARM——这笔交易后来在 2022 年因监管阻力告吹，但它标志着 GPU 厂商已经开始把自己当成 AI 基础设施的国家级战略玩家。

12 月 2 日，Google 资深 AI 研究员、著名的 Timnit Gebru 被解雇。理由表面上是她写的那篇《On the Dangers of Stochastic Parrots》论文——文章指出大语言模型的训练语料里充满了偏见、训练能耗巨大、它们只是"在统计上随机生成像人话的话"（随机鹦鹉）。这件事后来被认为是 AI 伦理领域的一次标志事件：最大的那几家公司已经容不下对自己核心技术的根本性批评。

2020 年的最后一个月，GPT-3 已经在给它的 API 用户写小说、写代码、写婚礼致辞；AlphaFold 2 的结构库开始被世界各地的生化实验室索要；而外面的世界，还在戴着口罩数每天的新增病例。世界的另一层齿轮，开始以与人类文明不同的速度转动。

站在 2020 年年末回望，2016 年首尔那个下午的第三十七手已经过去了四年半。四年半里，AI 从一个会下围棋的程序，变成了一个会写代码、会读懂蛋白质折叠、会骗过加密货币论坛的某种混合体。没有一步是飞跃。每一步都是前一步的延长。但把它们连起来，就是一条陡峭的坡。

2020 年是 AI 暗中换挡的一年。世界刚刚按下暂停键，它按下了加速键。