2024 年 2 月 15 日,美国东部时间下午。OpenAI 的网页上挂出一段看起来不太像现实的 demo:一位年轻女子走过东京下雪的街道,霓虹灯的反光在湿润的路面上晃动,镜头跟着她的步伐走了将近一分钟,人物、服装、背景中偶尔掠过的路人都保持得惊人地一致。
这是 Sora。OpenAI 在博客里给了它一个冷静的描述:"Creating video from text。" 团队同时放出了一组其它片段:一辆大型 SUV 从碎石山路驶下、两只海盗船在咖啡杯里交战、加州淘金热的伪纪录片、雪地里一只毛绒怪物蹲在一根蜡烛旁。每段都是 1080p,最长一分钟。这些不是剪辑拼接——它们是逐帧被模型想象出来的。
Sora 并没有在 2 月立刻开放给公众。OpenAI 只把它交给一小群红队成员做对抗性测试,包括对虚假信息和偏见敏感的专家。但那条博客挂上网不到两小时,一位好莱坞的视觉特效总监在推特上写道:
I just saw the industry I've worked in for 25 years end, in a single afternoon.
MIT Technology Review 的标题是:"OpenAI 预览了一个神奇的新生成视频模型 Sora。" 《华尔街日报》更直接地打电话给电影制片厂,问他们的特效预算接下来要怎么安排。
2024 年 2 月之前,视频是"拍"出来的。之后,它可以是"想"出来的。这条分水岭画得干净利落。
Sora 不是 2024 唯一的分水岭。它只是第一个。
一个月不到,另一条线被推开。2024 年 3 月 4 日,Anthropic 发布 Claude 3 系列:Haiku、Sonnet、Opus。其中 Claude 3 Opus 在 MMLU、GPQA、GSM8K、MATH、HumanEval 等多项基准上首次把 GPT-4 按在下面,也是第一次有一款非 OpenAI 的模型登上 Chatbot Arena 榜首。OpenAI 几周后用更新的 GPT-4 Turbo 把排名抢了回来,但行业心知肚明——前沿不再只姓 OpenAI。
再一周后,谷歌 DeepMind 也端出了自己准备已久的菜。Gemini 1.5 Pro,2024 年 2 月 15 日(和 Sora 同一天,不是巧合)发布,采用 MoE 架构,首次在生产模型上引入 100 万 token 上下文窗口。它能一次读完 1 小时视频、11 小时音频、30,000 行代码,或 70 万字的英文。而且在 Needle-In-A-Haystack 测试里——研究员故意把一句关键事实埋进百万字长的无关文本——Gemini 1.5 Pro 在 99% 的情况下能找到那一针。Google 内部据称一度试到了 1000 万 token,只是没公开发布。
长上下文、多模态、推理,2024 年的三条主线几乎是同时被拉开。
然后是 5 月。
2024 年 5 月 13 日上午,旧金山。 OpenAI 的 CTO Mira Murati 坐在椅子上,对着一部手机说话。手机里的 GPT-4o——"o" 表示 omni,全能——用一个略带感情的女声回应她,语气、停顿、笑点都像极了在 Zoom 里陪你聊天的同事。她打断它,它真的停下来听;她请它"再戏剧化一点",它当场升级了声线。
这是多模态第一次真正合流。GPT-4o 同时接受文字、图像、音频、视频,输出也可以是任意组合。语音模式的平均延迟降到了 320 毫秒——接近人类日常对话的反应速度。 Google I/O 第二天召开的新闻发布会被迫调整了议程。Sam Altman 在发布前一天只发了一个词的推特:her.
斯嘉丽·约翰逊在 2013 年的电影《Her》里扮演的那个 AI 助手名叫 Samantha,是整整一代硅谷工程师的情感启蒙。GPT-4o 的一个默认声音 Sky 听起来像极了约翰逊本人。她的律师在 5 月 20 日发出了义正辞严的声明,OpenAI 连夜下架 Sky。这一幕后来被视为 AI 公司第一次在明星 IP 的红线上撞得头破血流。
同一月的另一头,Anthropic 继续沿着编程这条线深挖。2024 年 6 月 20 日,Claude 3.5 Sonnet 发布。 在内部的 SWE-bench 编码基准上,Claude 3.5 Sonnet 解出 64% 的问题,比上一代 Claude 3 Opus 的 38% 几乎翻了一倍;HumanEval 92%,GPQA 和 MMLU 上也再一次抬高了整个行业的天花板。速度是前代 Opus 的两倍,价格却只有五分之一。它第一次让"AI 写代码"从一种惊喜变成一种日常依赖。一位硅谷的资深工程师在采访里说得冷静:"我不再怀疑我的团队要用它。我在怀疑我为什么要雇新人。"
9 月,节奏又一次跳跃。
2024 年 9 月 12 日,OpenAI o1-preview 发布。 这款模型在 ChatGPT 和 API 里都延迟明显——你问它一道国际奥数题,它不会立刻给答案。它会停下来,好像在想。界面上出现 Thinking… 的小字,有时候转两秒,有时候转一分钟。在返回最终答案之前,它内部先写下一串长长的"内心独白"——一串推理链(chain of thought),它先用自然语言把问题拆成步骤,检验每一步,再写出答案。
这是推理模型(reasoning model)第一次进入大众产品。o1 在 AIME 2024 数学竞赛题上的通过率从 GPT-4o 的 13% 跳到了 83%;在 Codeforces 竞赛编程上,o1 跑到了第 89 百分位,比它的前任高出一大截。内部代号最初叫 Q*,后来叫 Strawberry,一度在 2024 年夏天被 Reuters 以"神秘项目"的姿态曝光过。
o1 的设计里有一个奇怪的决定:它的推理链是对用户隐藏的。 OpenAI 在技术报告里说,他们不希望把它训练成符合公开标准的"内心戏",以保持它的本色。但他们也对试图探测 o1 思考过程的用户发出警告。第一次,AI 公司承认自己的模型有一种"我们不完全理解"的内在状态。
9 月的最后一周,o1-preview 正式开放给 Plus 用户;12 月 5 日,o1 正式版和 ChatGPT Pro 一起上线,订阅费 每月 200 美元。这是普通消费级订阅第一次进入三位数美元的区间。OpenAI 对 Pro 用户开放了 "o1 pro mode"——用更多算力让模型想得更久,在 AIME 上的通过率再升到 86%。
10 月,Anthropic 放出了一个让所有人愣住的功能。2024 年 10 月 22 日,Claude 3.5 Sonnet(升级版)带来 Computer Use。 它不再只是一个聊天框里说话的模型——它可以直接看你的屏幕截图,计算像素坐标,操纵鼠标,敲键盘,像一个看不见的同事坐在你旁边。OSWorld 基准上,Claude 3.5 Sonnet 在只有屏幕截图可用的情况下拿到 14.9%——下一名 7.8%。数字还不够高,但方向被确立。Anthropic 自己小心翼翼地注明:"这是公测,它会犯错,它可能点错按钮。请不要让它碰你的生产数据库。"
12 月,Sora 的公众版以 Sora Turbo 的名字正式上线,分辨率最高 1080p,单段 20 秒,订阅制。同月,Google 发布 Veo 2,支持 4K。视频生成赛道正式开打。
2024 年的另一个惊喜发生在瑞典。
10 月 8 日,诺贝尔物理学奖颁给了 John Hopfield 和 Geoffrey Hinton——表彰他们 80 年代对神经网络架构的奠基性贡献。第二天,诺贝尔化学奖颁给了 Demis Hassabis 和 John Jumper(DeepMind),以及 David Baker(华盛顿大学)——表彰 AlphaFold 解决蛋白结构预测问题。瑞典皇家科学院在同一周把两个最硬核的自然科学奖都给了 AI 相关工作。这不是象征姿态,是认真的学术判决。
Hinton 在电话采访里开玩笑:"我一辈子都搞物理系的人看不起的东西,结果物理系突然给我发了奖。"——但采访的另一半他又回到他那个让人难安的话题:"这些系统比人类更聪明,我们还没准备好。"
2024 年还藏了一些小事。它们当时看起来只是发布新闻的噪音,之后被证明是那条时间线上的小齿轮。
Meta 的 LLaMA 3.1 在 7 月以 4050 亿参数的形态发布,权重开放,成为当时最大的开源模型。Mistral 发布 Mistral Large 2,性能追上 GPT-4 的水准。xAI 的 Grok 2 在 8 月上线。OpenAI 的 Dev Day 带来了"实时 API",允许开发者直接接入语音能力。AI 驱动的播客 NotebookLM Audio Overviews 悄悄走红——两个 AI 主持人围绕用户上传的一份文档做一期播客,听起来几乎和真人一样。数以万计的作家、研究者发现,他们写的每一份东西都能在五分钟内变成一段 AI 播客。
同一年,Sam Altman 与 Jony Ive(前苹果首席设计官)传出合作做"AI 硬件"的消息,细节讳莫如深。Humane AI Pin 和 Rabbit R1 两款主打 AI 的便携设备相继翻车——Humane 的员工开始准备找新工作,Rabbit 的退货率据称超过 50%。这是另一条伏笔:硬件和 AI 的配对,没人一次就做对。
2024 年末,全球 AI 公司的融资额创下纪录——仅美国市场就超过 1000 亿美元。Nvidia 的股价一度让它成为全球市值最高的上市公司。与此同时,欧盟的 AI Act 在 8 月正式生效,开始逐步落地。
这一年结束时,一个老问题终于被新问题取代了。过去两年大家都在问:"AI 能不能做 X?" 2024 年年底大家换问题了:"这件 X,我们还要不要 AI 不做?"
回看 2024,它像一次系统级的升级。视频被想象出来,声音学会了回应,推理学会了停顿。AI 不再只是生成下一个 token——它开始在做事之前先想,在说话之前先看,在写字之前先听。
慢思考是这一年最深的那条水沟。它不再是学界里抽象的 System 2——它变成了 ChatGPT 网页里那个转着圈的 Thinking… 小字。人类花了几千年建立起来的"思考需要时间"这个常识,被一台机器以每次几秒到几分钟的代价,安静地复刻了一次。