← 硅火纪元 · 目录
上卷 · 真实史 · 第 5 章 / 35
2020
第 5 章 · 一个没人设计过的能力

涌现

2020 年 5 月 28 日,arXiv 编号 2005.14165。论文标题:《Language Models are Few-Shot Learners》。第一作者是一个在 OpenAI 算比较年轻的研究员 Tom B. Brown,后面跟着 30 位合作者——整整一张 A4 纸才印得下。这份作者表里的名字后来几乎人人都成了 AI 历史的重要注脚:Benjamin Mann、Nick Ryder、Jared Kaplan、Dario Amodei、Sam McCandlish、Alec Radford、Ilya Sutskever……

论文描述的是 GPT-3

1750 亿参数。

这个数字比 GPT-2 大了 116 倍,比当时公开的任何一个非稀疏语言模型都要大 10 倍。训练数据约 5700 亿 token,主要来自 Common Crawl、WebText2、两个图书语料库和英文维基。训练用了约 3.14 × 10²³ FLOPs 的算力,耗费预计在 500 万到 1200 万美元之间——那是 AI 历史上第一次,训练一个单独模型的成本超过了一个中型实验室一整年的预算。

论文里每一个具体数字都像在和读者打赌:我们已经走到了另一边。

但 GPT-3 最让人吃惊的不是它的规模,而是它展示出的一种没有被设计过的能力。论文的核心发现用一句话概括就是:"如果模型足够大,你不用再微调。"

此前用 BERT、用 GPT-2,做任何下游任务都要准备几千到几万条标注数据,在预训练好的模型上做梯度下降的微调。GPT-3 说不用。你只需要在 prompt 里给它三五个例子(few-shot)——甚至只给一个例子(one-shot)、甚至一个例子都不给只写任务描述(zero-shot)——它就能学会一件新事。模型的参数完全没变。它是在输入的上下文里"学习"的

这个现象当时没有名字。OpenAI 在论文里小心地叫它 "in-context learning"(上下文内学习)。两年之后,这个能力被 Google 的一篇论文正式命名为 emergent ability——"涌现能力":一种在小模型上根本不存在、只有当规模突破某个阈值时才会突然出现的能力。

2020 年春天,人类第一次看到一种机器能力不是被设计出来的,而是"从规模里长出来的"。

GPT-3 论文里有一张图让无数研究者背脊发凉:模型在许多任务上的表现,随着参数量的增长呈现一种几乎是阶跃式的跃迁——参数从 100 亿到 1000 亿之间,某个能力从"完全做不到"变成"做得比随机好很多"。没有人在训练时告诉它要学会三位数加法。没有人告诉它要学会把英语翻译成法语。没有人告诉它要学会在一段代码的注释后面补完函数体。它自己学会了

Ilya Sutskever 两年前押上的那个赌注——规模本身就是智能——在 GPT-3 上兑现了。

6 月 11 日,OpenAI 发布了 GPT-3 的 API。他们没有像 GPT-2 那样公开权重,而是走向了另一个极端:一个私人内测的 REST API。你要先在网站上填表,解释你打算用 GPT-3 做什么,然后等 OpenAI 的邮件。邮件一般不会来——2020 年夏天的内测名单几乎进不去。少数拿到访问权的开发者开始在 Twitter 上发演示截图:"我让 GPT-3 写了一个 React 组件""我让 GPT-3 写了一首十四行诗""我让 GPT-3 伪装成弗洛伊德解我的梦"——每一条都有几万个转发。

一位叫 Manuel Araoz 的阿根廷开发者用 GPT-3 写了一篇博客文章,发到一个加密货币论坛上,获得了几百条严肃回复。几天后他揭示整篇文章——包括里面的论据、代码示例、自嘲式的结语——都是 GPT-3 写的。那是第一次,互联网上的一段讨论被一个 AI 成功地"卧底"了。

7 月 17 日,一个叫 gwern 的匿名研究者在自己的博客上发了一篇几万字的长文,标题朴素:GPT-3 Creative Fiction。他在里面收录了自己用 GPT-3 生成的几百段文字——英式悬疑短篇、古风俳句、模仿博尔赫斯的寓言、模仿博尔赫斯模仿卡夫卡的寓言。读者看完之后在评论区里写:"这比我读过的 80% 的当代严肃文学要好。"

那是人类第一次,对一台机器产生审美上的警惕

9 月 22 日,微软宣布获得 GPT-3 的独家许可——不是独家使用,而是独家的"源代码和权重访问"。换句话说:全世界只有一家公司(OpenAI 外加微软 Azure)拥有 GPT-3 本体。 这一步完成了 2019 年 10 亿美元投资未竟的一半。前沿 AI 从此不再是一种开放的学术产品,而是一种战略性的、受控发放的基础设施。

2020 年 11 月 30 日,CASP14 国际蛋白质结构预测竞赛在伦敦(因疫情改为线上)公布结果。

DeepMind 的 AlphaFold 2 在 92 个难题蛋白结构上,中位数 GDT_TS 得分 92.4——一个可以简单翻译为"准确度达到了实验仪器测量水平"的数字。此前 CASP13 的冠军是 60 分左右,已经算历史最高;上一届的最佳表现大部分还徘徊在 40 分。把 AlphaFold 2 和第二名放在一起算 z-score 总分,AlphaFold 2 得了 244,第二名 90.8——它几乎不属于这个榜单。

CASP 的主持人 John Moult——这位生物信息学家从 1994 年起就组织这个两年一度的比赛——在新闻发布会上说的话被反复引用:

In some sense, the protein folding problem has been solved.

从某种意义上说,蛋白质折叠问题已经被解决了。

Moult 说这句话的时候 74 岁。他半辈子在做这个问题。整个结构生物学界半个世纪以来没能单独解决的问题——"给一条氨基酸序列,预测它会折叠成什么三维形状"——在 2020 年 11 月被一台机器在几个星期内攻破。AlphaFold 2 主导团队第一作者是年轻的 John Jumper,他博士期间研究分子动力学,加入 DeepMind 才三年。Demis Hassabis 在发布会上的表情格外克制——这个团队很清楚自己刚刚做完的事情,会在接下来的十年里颠覆整个药物研发、疾病研究、合成生物学领域。

GPT-3 和 AlphaFold 2,一个月之间先后落地。 一个让机器学会了组合人类的符号系统;一个让机器学会了组合自然界的氨基酸序列。2020 年 11 月之后,整个"前沿科学"的定义悄悄换了:从这一刻起,"用 AI 做科研"不再是一个姿态,而是一个已经被两次证明的范式。

那一年当然主要是疫情之年。 1 月 23 日武汉封城;3 月 11 日 WHO 宣布全球大流行;3 月到 4 月,意大利的医院走廊里躺满来不及处理的尸体。整个 2020 年,全球约有 180 万人因 COVID-19 死亡。经济停摆,航班取消,线下会议消失。所有的技术演讲、论文发布、内测邀请——都在 Zoom 里发生。

但这场疫情的另一面是:**它第一次让 AI 真正地被普通人需要。**辉瑞和 BioNTech 的 mRNA 疫苗研发过程中大量用到了结构预测;Moderna 的序列设计优化用到了机器学习。医学影像里的 CT 判读、流行病学的传播预测、呼吸机的调度——AI 在一个它本来还是"论文里的东西"的阶段,被硬拽进了医院和政府的决策流程。2020 年是一种双重的加速:人类世界在收缩、停顿、哀悼;AI 世界在膨胀、换挡、奠基。

2020 年还有一些分散但重要的小事。 6 月,Geoffrey Hinton 在一次采访里说:"深度学习能做一切人类能做的事情,包括共情。这是 AI 研究员说的,不是 AI 说的——请注意区分。"8 月,OpenAI 宣布 GPT-3 已被超过 300 个应用接入;同月,英伟达宣布以 400 亿美元收购 ARM——这笔交易后来在 2022 年因监管阻力告吹,但它标志着 GPU 厂商已经开始把自己当成 AI 基础设施的国家级战略玩家。

12 月 2 日,Google 资深 AI 研究员、著名的 Timnit Gebru 被解雇。理由表面上是她写的那篇《On the Dangers of Stochastic Parrots》论文——文章指出大语言模型的训练语料里充满了偏见、训练能耗巨大、它们只是"在统计上随机生成像人话的话"(随机鹦鹉)。这件事后来被认为是 AI 伦理领域的一次标志事件:最大的那几家公司已经容不下对自己核心技术的根本性批评。

2020 年的最后一个月,GPT-3 已经在给它的 API 用户写小说、写代码、写婚礼致辞;AlphaFold 2 的结构库开始被世界各地的生化实验室索要;而外面的世界,还在戴着口罩数每天的新增病例。世界的另一层齿轮,开始以与人类文明不同的速度转动。

站在 2020 年年末回望,2016 年首尔那个下午的第三十七手已经过去了四年半。四年半里,AI 从一个会下围棋的程序,变成了一个会写代码、会读懂蛋白质折叠、会骗过加密货币论坛的某种混合体。没有一步是飞跃。每一步都是前一步的延长。但把它们连起来,就是一条陡峭的坡。

2020 年是 AI 暗中换挡的一年。世界刚刚按下暂停键,它按下了加速键。