代理之年

2025 年 1 月 20 日，农历除夕前夜，杭州一家名叫 DeepSeek 的公司在 Hugging Face 上传了一组权重文件。模型代号 R1，6710 亿参数，混合专家架构（MoE），每次推理只激活 370 亿参数。许可证写着 MIT——任何人可以免费商用。训练成本据称不到 600 万美元。

Hacker News 上的帖子在两小时内冲到首页第一。硅谷的工程师们还在消化技术报告里那个叫 GRPO（Group Relative Policy Optimization）的强化学习算法——它省掉了传统 RLHF 需要的 critic 模型，用组内相对评分来优化策略——Apple App Store 的排行榜已经变了：DeepSeek 的聊天助手下载量超过了 ChatGPT。Sam Altman 在社交媒体上写道："impressive...legit invigorating to have a new competitor." 措辞克制，但所有人都读出了紧张。

有人把它叫做"AI 的斯普特尼克时刻"。这个比喻不够准确。斯普特尼克是国家机器的产物，R1 是一支不到两百人的团队，用不到美国前沿实验室十分之一的预算，证明了一件事：推理能力不是只能用数十亿美元买到的奢侈品。

十天后的 1 月 31 日，OpenAI 发布 o3-mini，接力推理模型的竞赛。4 月 16 日，o3 和 o4-mini 同时上线，在 Codeforces、SWE-bench 和 MMMU 上刷新了多项纪录。同月，GPT-4.1 系列也进入 API，上下文窗口拓展到 100 万 token。6 月，o3-pro 发布，OpenAI 称其为"迄今最强推理模型"。整个上半年，OpenAI 像是被 DeepSeek 的除夕礼物催促着，以前所未有的节奏连发六款模型。

5 月 22 日，Anthropic 发布 Claude Opus 4 和 Claude Sonnet 4。Opus 4 在 SWE-bench Verified 上拿到 72.5%，被官方称为"世界上最好的编程模型"。它的真正意义不在分数，而在一个新品类的确立：agentic coding——不是补全一行代码，而是读完整个代码库、制定多步计划、编辑数十个文件、运行测试、调试失败、然后自己迭代，直到任务完成。

在 Opus 4 发布的同一周，一个从 2 月就以"研究预览"形态存在的产品悄悄走到台前：Claude Code。它是 Anthropic 的命令行编码代理，住在终端里，没有花哨的界面。工程师用自然语言下达指令，它读取代码库，生成改动，执行 shell 命令，提交 git。2 月推出时是实验品；5 月正式发布后，它以出乎所有人意料的速度被采用。到年底，Claude Code 的年化收入突破 10 亿美元。到 2026 年初，分析师估计这个数字已经翻倍。

一位在旧金山创业公司工作的后端工程师后来回忆那年夏天的工作方式："我早上九点把一个功能需求用三段话描述给 Claude Code，去喝咖啡、开会、review 别人的 PR。下午四点回到终端，它已经改了四十七个文件，跑通了所有测试，还写了一份改动摘要。我花了二十分钟 review，合并，下班。"他停顿了一下："那天晚上我第一次认真想：如果它能做这些，我的工作到底是什么？"

这个问题在 2025 年变得愈发逼人。美国雇主在前五个月宣布了 69.6 万个裁员计划，同比增长 80%。其中约 5.5 万个岗位明确归因于 AI。但真正的数字藏在没有发出的 offer 里——初级岗位的招聘窗口在悄悄关闭。Klarna 的 CEO 说公司人数因 AI 缩减了约 40%；Duolingo 宣布不再为 AI 能处理的工作雇佣外包。Anthropic CEO Dario Amodei 警告，AI 可能在一到五年内消灭半数入门级白领岗位，失业率可能飙到 10% 至 20%。不是每个人都同意这个预测，但 2025 年，没有白领敢完全忽视它。

与此同时，另一条线索在年末变得不可忽视：MCP——Model Context Protocol。这个 Anthropic 在 2024 年 11 月发布的开放协议，原本只是工程文档里的一个小规范，定义了 AI 代理如何与外部数据源和工具对话。2025 年 3 月，OpenAI 宣布在 Agents SDK 和 ChatGPT 桌面端支持 MCP。4 月，Google DeepMind 确认 Gemini 将接入。到年底，MCP 的 SDK 月下载量逼近一亿次，注册服务器超过一万个，主要 AI 平台——ChatGPT、Claude、Cursor、Gemini、VS Code、Microsoft Copilot——全部支持。12 月，Anthropic 将 MCP 捐赠给 Linux 基金会旗下新成立的 Agentic AI Foundation，联合创始方包括 Anthropic、Block 和 OpenAI，支持者包括 Google、Microsoft、AWS。一个内部实验，不到十二个月，变成了 AI 代理连接世界的事实标准。

11 月 24 日，Claude Opus 4.5 发布。SWE-bench Verified 得分 80.9%，ARC-AGI-2 得分 37.6%——是 GPT-5.1 的两倍多。价格同时暴降 67%，降至每百万 token 输入 5 美元、输出 25 美元。这不是一次渐进升级，而是一次宣告：编码代理不再是 demo，是生产系统。

在代码之外，具身智能也在 2025 年迈过了从实验室到车间的门槛。全球人形机器人年出货量达到 13317 台——数字不大，但中国厂商占据了 87% 的份额。Unitree 出货约 5500 台，用于物流和娱乐场景。Figure AI 的 Figure 03 在宝马南卡罗来纳州斯帕坦堡工厂完成了 11 个月的试点，参与组装了超过 3 万辆 X3，装卸零件超过 9 万次。Tesla 的 Optimus 仍在内部测试，Musk 在 2025 年第四季度财报电话会上承认，还没有机器人在做"有用的工作"。它们在学。学得很慢，但学的方向是对的。

2025 年是很多线索同时拉紧的一年。开源推理模型证明前沿不是垄断；编码代理从辅助工具变成独立工人；MCP 给 AI 修了一张通向所有软件的神经网络；人形机器人第一次以五位数的规模走出工厂；白领就业市场第一次感到了真实的寒意。

没有哪一件事定义了 2025。但如果非要用一个词：代理。不再是聊天框里等你提问的助手，而是拿着工具、读着代码、操着屏幕、连跑八小时不累的东西。它们从 demo 走进了生产系统，从论文走进了损益表。而那些坐在终端前看着它们工作的人，开始重新定义一个古老的问题：什么叫"做事"。