视觉、声音、推理

2024 年 2 月 15 日，美国东部时间下午。OpenAI 的网页上挂出一段看起来不太像现实的 demo：一位年轻女子走过东京下雪的街道，霓虹灯的反光在湿润的路面上晃动，镜头跟着她的步伐走了将近一分钟，人物、服装、背景中偶尔掠过的路人都保持得惊人地一致。

这是 Sora。OpenAI 在博客里给了它一个冷静的描述："Creating video from text。" 团队同时放出了一组其它片段：一辆大型 SUV 从碎石山路驶下、两只海盗船在咖啡杯里交战、加州淘金热的伪纪录片、雪地里一只毛绒怪物蹲在一根蜡烛旁。每段都是 1080p，最长一分钟。这些不是剪辑拼接——它们是逐帧被模型想象出来的。

Sora 并没有在 2 月立刻开放给公众。OpenAI 只把它交给一小群红队成员做对抗性测试，包括对虚假信息和偏见敏感的专家。但那条博客挂上网不到两小时，一位好莱坞的视觉特效总监在推特上写道：

I just saw the industry I've worked in for 25 years end, in a single afternoon.

MIT Technology Review 的标题是："OpenAI 预览了一个神奇的新生成视频模型 Sora。" 《华尔街日报》更直接地打电话给电影制片厂，问他们的特效预算接下来要怎么安排。

2024 年 2 月之前，视频是"拍"出来的。之后，它可以是"想"出来的。这条分水岭画得干净利落。

Sora 不是 2024 唯一的分水岭。它只是第一个。

一个月不到，另一条线被推开。2024 年 3 月 4 日，Anthropic 发布 Claude 3 系列：Haiku、Sonnet、Opus。其中 Claude 3 Opus 在 MMLU、GPQA、GSM8K、MATH、HumanEval 等多项基准上首次把 GPT-4 按在下面，也是第一次有一款非 OpenAI 的模型登上 Chatbot Arena 榜首。OpenAI 几周后用更新的 GPT-4 Turbo 把排名抢了回来，但行业心知肚明——前沿不再只姓 OpenAI。

再一周后，谷歌 DeepMind 也端出了自己准备已久的菜。Gemini 1.5 Pro，2024 年 2 月 15 日（和 Sora 同一天，不是巧合）发布，采用 MoE 架构，首次在生产模型上引入 100 万 token 上下文窗口。它能一次读完 1 小时视频、11 小时音频、30,000 行代码，或 70 万字的英文。而且在 Needle-In-A-Haystack 测试里——研究员故意把一句关键事实埋进百万字长的无关文本——Gemini 1.5 Pro 在 99% 的情况下能找到那一针。Google 内部据称一度试到了 1000 万 token，只是没公开发布。

长上下文、多模态、推理，2024 年的三条主线几乎是同时被拉开。

然后是 5 月。

2024 年 5 月 13 日上午，旧金山。 OpenAI 的 CTO Mira Murati 坐在椅子上，对着一部手机说话。手机里的 GPT-4o——"o" 表示 omni，全能——用一个略带感情的女声回应她，语气、停顿、笑点都像极了在 Zoom 里陪你聊天的同事。她打断它，它真的停下来听；她请它"再戏剧化一点"，它当场升级了声线。

这是多模态第一次真正合流。GPT-4o 同时接受文字、图像、音频、视频，输出也可以是任意组合。语音模式的平均延迟降到了 320 毫秒——接近人类日常对话的反应速度。 Google I/O 第二天召开的新闻发布会被迫调整了议程。Sam Altman 在发布前一天只发了一个词的推特：her.

斯嘉丽·约翰逊在 2013 年的电影《Her》里扮演的那个 AI 助手名叫 Samantha，是整整一代硅谷工程师的情感启蒙。GPT-4o 的一个默认声音 Sky 听起来像极了约翰逊本人。她的律师在 5 月 20 日发出了义正辞严的声明，OpenAI 连夜下架 Sky。这一幕后来被视为 AI 公司第一次在明星 IP 的红线上撞得头破血流。

同一月的另一头，Anthropic 继续沿着编程这条线深挖。2024 年 6 月 20 日，Claude 3.5 Sonnet 发布。 在内部的 SWE-bench 编码基准上，Claude 3.5 Sonnet 解出 64% 的问题，比上一代 Claude 3 Opus 的 38% 几乎翻了一倍；HumanEval 92%，GPQA 和 MMLU 上也再一次抬高了整个行业的天花板。速度是前代 Opus 的两倍，价格却只有五分之一。它第一次让"AI 写代码"从一种惊喜变成一种日常依赖。一位硅谷的资深工程师在采访里说得冷静："我不再怀疑我的团队要用它。我在怀疑我为什么要雇新人。"

9 月，节奏又一次跳跃。

2024 年 9 月 12 日，OpenAI o1-preview 发布。 这款模型在 ChatGPT 和 API 里都延迟明显——你问它一道国际奥数题，它不会立刻给答案。它会停下来，好像在想。界面上出现 Thinking… 的小字，有时候转两秒，有时候转一分钟。在返回最终答案之前，它内部先写下一串长长的"内心独白"——一串推理链（chain of thought），它先用自然语言把问题拆成步骤，检验每一步，再写出答案。

这是推理模型（reasoning model）第一次进入大众产品。o1 在 AIME 2024 数学竞赛题上的通过率从 GPT-4o 的 13% 跳到了 83%；在 Codeforces 竞赛编程上，o1 跑到了第 89 百分位，比它的前任高出一大截。内部代号最初叫 Q*，后来叫 Strawberry，一度在 2024 年夏天被 Reuters 以"神秘项目"的姿态曝光过。

o1 的设计里有一个奇怪的决定：它的推理链是对用户隐藏的。 OpenAI 在技术报告里说，他们不希望把它训练成符合公开标准的"内心戏"，以保持它的本色。但他们也对试图探测 o1 思考过程的用户发出警告。第一次，AI 公司承认自己的模型有一种"我们不完全理解"的内在状态。

9 月的最后一周，o1-preview 正式开放给 Plus 用户；12 月 5 日，o1 正式版和 ChatGPT Pro 一起上线，订阅费 每月 200 美元。这是普通消费级订阅第一次进入三位数美元的区间。OpenAI 对 Pro 用户开放了 "o1 pro mode"——用更多算力让模型想得更久，在 AIME 上的通过率再升到 86%。

10 月，Anthropic 放出了一个让所有人愣住的功能。2024 年 10 月 22 日，Claude 3.5 Sonnet（升级版）带来 Computer Use。 它不再只是一个聊天框里说话的模型——它可以直接看你的屏幕截图，计算像素坐标，操纵鼠标，敲键盘，像一个看不见的同事坐在你旁边。OSWorld 基准上，Claude 3.5 Sonnet 在只有屏幕截图可用的情况下拿到 14.9%——下一名 7.8%。数字还不够高，但方向被确立。Anthropic 自己小心翼翼地注明："这是公测，它会犯错，它可能点错按钮。请不要让它碰你的生产数据库。"

12 月，Sora 的公众版以 Sora Turbo 的名字正式上线，分辨率最高 1080p，单段 20 秒，订阅制。同月，Google 发布 Veo 2，支持 4K。视频生成赛道正式开打。

2024 年的另一个惊喜发生在瑞典。

10 月 8 日，诺贝尔物理学奖颁给了 John Hopfield 和 Geoffrey Hinton——表彰他们 80 年代对神经网络架构的奠基性贡献。第二天，诺贝尔化学奖颁给了 Demis Hassabis 和 John Jumper（DeepMind），以及 David Baker（华盛顿大学）——表彰 AlphaFold 解决蛋白结构预测问题。瑞典皇家科学院在同一周把两个最硬核的自然科学奖都给了 AI 相关工作。这不是象征姿态，是认真的学术判决。

Hinton 在电话采访里开玩笑："我一辈子都搞物理系的人看不起的东西，结果物理系突然给我发了奖。"——但采访的另一半他又回到他那个让人难安的话题："这些系统比人类更聪明，我们还没准备好。"

2024 年还藏了一些小事。它们当时看起来只是发布新闻的噪音，之后被证明是那条时间线上的小齿轮。

Meta 的 LLaMA 3.1 在 7 月以 4050 亿参数的形态发布，权重开放，成为当时最大的开源模型。Mistral 发布 Mistral Large 2，性能追上 GPT-4 的水准。xAI 的 Grok 2 在 8 月上线。OpenAI 的 Dev Day 带来了"实时 API"，允许开发者直接接入语音能力。AI 驱动的播客 NotebookLM Audio Overviews 悄悄走红——两个 AI 主持人围绕用户上传的一份文档做一期播客，听起来几乎和真人一样。数以万计的作家、研究者发现，他们写的每一份东西都能在五分钟内变成一段 AI 播客。

同一年，Sam Altman 与 Jony Ive（前苹果首席设计官）传出合作做"AI 硬件"的消息，细节讳莫如深。Humane AI Pin 和 Rabbit R1 两款主打 AI 的便携设备相继翻车——Humane 的员工开始准备找新工作，Rabbit 的退货率据称超过 50%。这是另一条伏笔：硬件和 AI 的配对，没人一次就做对。

2024 年末，全球 AI 公司的融资额创下纪录——仅美国市场就超过 1000 亿美元。Nvidia 的股价一度让它成为全球市值最高的上市公司。与此同时，欧盟的 AI Act 在 8 月正式生效，开始逐步落地。

这一年结束时，一个老问题终于被新问题取代了。过去两年大家都在问："AI 能不能做 X？" 2024 年年底大家换问题了："这件 X，我们还要不要 AI 不做？"

回看 2024，它像一次系统级的升级。视频被想象出来，声音学会了回应，推理学会了停顿。AI 不再只是生成下一个 token——它开始在做事之前先想，在说话之前先看，在写字之前先听。

慢思考是这一年最深的那条水沟。它不再是学界里抽象的 System 2——它变成了 ChatGPT 网页里那个转着圈的 Thinking… 小字。人类花了几千年建立起来的"思考需要时间"这个常识，被一台机器以每次几秒到几分钟的代价，安静地复刻了一次。