ai-interview
// interview reports · 2025H2 – 2026Q1

AI 岗大厂面经精选

七家公司、七个岗位、二十多轮面试的一手记录。这里不讲"Transformer 是什么",只讲"他当时盯着你看、让你在白板上把 KV cache 显存占用算出来时,房间里发生了什么"。

On this page
  1. TL;DR:2026 年 AI 面经趋势
  2. 高频题 Top 20
  3. 字节跳动 · 豆包大模型算法工程师
  4. 阿里通义 · LLM post-training 工程师
  5. DeepSeek · 大模型训练工程师
  6. 月之暗面 · Kimi Agent 工程师
  7. 小红书 · 搜推多模态算法
  8. OpenAI · MTS, Applied
  9. Anthropic · Research Engineer
  10. 通用流程建议
  11. 红线与踩坑

TL;DR:2026 年 AI 面经趋势

从 2025 年下半年开始,AI 岗面试题的结构明显变了。我们把最近半年二十多份一手面经对齐后,归纳出 5 条观察:

观察 1 · 八股占比下降到三成。2024 年一面可以靠"背完 100 题"过,2026 年不行。一面里"手撕 + 项目深挖 + 系统设计"加起来已经到 60–70%,纯概念问答("什么是 RoPE / LayerNorm / MoE")通常只占 15 分钟,还会被追问到实现细节。
观察 2 · FlashAttention 成为必考。七家公司里五家问到了 FA2 / FA3 的分块策略、online softmax、为什么能省显存、为什么快。不是让你背论文,是让你在白板上画出 tile 怎么切、register 怎么用、HBM 读写多少次。
观察 3 · Agent / MCP 系统设计首次登场。Moonshot、字节、小红书都出现了"设计一个能调 20 个工具的 Agent,怎么做 planner / tool selector / memory / 失败回滚"的题。MCP 协议细节有人问,但更多是考"系统边界谁来定"。
观察 4 · RLHF 八股降温,DPO / GRPO / RLVR 接棒。PPO 在 2026 年已经不是热点,问 PPO 大多是热身。真正会追问的是:"DPO 为什么不用 reward model、它的 loss 推一遍"、"GRPO 相对 PPO 省了什么、为什么 DeepSeek 选它"、"RLVR 在数学/代码上为什么稳、为什么不能扩到开放域"。
观察 5 · 项目深挖越来越"毒"。面试官不再满足于"我做了什么",而是问"如果把 batch size 砍一半你怎么调 lr"、"训练中途 loss spike 了你怎么 debug"、"你这个 trick 为什么没在别人数据上 work"。没亲手做过的项目,5 分钟内就会被问穿。

高频题 Top 20

下表是我们从 24 份面经里提取的出现频次最高的 20 题,按"所有公司覆盖次数 / 出现轮次"排序。频率标注里: = 至少 4 家公司问过; = 2–3 家; = 1 家但多人提到。

#题目类型出现公司频率
1手写 Multi-Head Attention 的 forward,标注每一步 shape 和 FLOPs手撕字节、通义、DeepSeek、Moonshot、OpenAI
2FlashAttention 为什么省显存?画出 tile 切分和 online softmax八股+手撕字节、DeepSeek、Moonshot、小红书、Anthropic
3推导 DPO loss,解释 β 的物理含义,和 PPO 对比优劣八股通义、Moonshot、字节、OpenAI
4估算一个 70B 模型推理时 KV cache 的显存占用(给定 seq len / batch / dtype)手撕字节、DeepSeek、通义、小红书
5MoE 的路由策略:top-k vs expert choice,load balance loss 为什么需要八股DeepSeek、通义、字节
6RoPE 的推导、为什么能外推、YaRN / NTK 怎么改的八股通义、Moonshot、DeepSeek、Anthropic
7设计一个多轮 Agent 系统,能调 20+ 工具,怎么做 planner系统设计Moonshot、字节、小红书、OpenAI
8LoRA 推导,rank 怎么选,为什么只训 Q/V 而不是 MLP八股通义、字节、小红书
9Speculative decoding 原理,draft model 选多大,accept rate 怎么影响吞吐八股字节、Moonshot、DeepSeek
10给一段代码题:Top-K / 二叉树路径和 / LRU / 实现简化版 softmax手撕全部 7 家
11训练 loss spike 怎么定位?给你一张 tensorboard 截图项目/debugDeepSeek、通义、Anthropic
12你这个 SFT 数据是怎么清洗的,脏数据占比,你怎么衡量项目通义、Moonshot、字节
133D 并行:DP / TP / PP 各自什么时候用,通信量怎么算八股DeepSeek、通义、字节
14Continual pretrain 会不会 catastrophic forgetting,你怎么缓解八股Moonshot、通义
15GRPO 和 PPO 的区别,为什么能去掉 critic八股DeepSeek、Moonshot、字节
16Agent 的长上下文怎么管理?context engineering 具体做法系统设计Moonshot、Anthropic、OpenAI
17多模态对齐:CLIP vs SigLIP,negative 怎么采,batch size 影响八股小红书、字节
18写一个 CUDA kernel(或伪代码)实现 fused RMSNorm手撕DeepSeek、字节
19介绍一篇你最近读的 paper,讲清楚 motivation / 方法 / 局限项目Anthropic、OpenAI、通义
20offline evaluation 和 online AB 不一致时怎么归因系统设计小红书、字节

一个隐含规律:越靠前的公司(字节、通义、DeepSeek),前五题基本要求"现场能写、能算、能画",不能只说思路;越偏应用端的公司(Moonshot Agent、小红书搜推),后半段系统设计题占比更高。

字节跳动 · 豆包大模型算法工程师(北京,2026 春招)

字节 · 豆包大模型算法 · 2026.02 Lv 2-2 难度高 offer

背景:985 硕,2 年经验,前司做 RAG+知识库系统,发过一篇长尾 benchmark 相关的 workshop。

投递渠道:内推(前同事在豆包 RL 组)。时间线:1/20 投递 → 1/23 HR 联系 → 1/26 一面 → 2/3 二面 → 2/11 三面 → 2/14 HR 面 → 2/20 口头 offer,共 31 天。

一面 · 60 min · 豆包 post-training 组 Lv 2-1
二面 · 75 min · 豆包 RL 组 Lv 2-2
三面 · 50 min · 豆包 Tech Lead Lv 3-1
HR 面 · 30 min
总结 / 踩坑

阿里通义 · LLM post-training 工程师(杭州)

阿里通义 · post-training · 2025.12 P7 难度高 offer

背景:海外 PhD 第 5 年,做过 instruction tuning 和 safety alignment,一作 ACL 长文两篇。

投递渠道:通义实验室负责人主动发邮件(因为我的 paper)。时间线:11/15 初聊 → 12/2 一面 → 12/9 二面 → 12/16 三面(交叉面)→ 12/23 部门老大聊 → 1/6 HR 面 → 1/10 offer,共 56 天。

一面 · 70 min · 通义 post-training 组 P7
二面 · 80 min · 通义实验室 P8
三面 · 60 min · 交叉面(P9,来自达摩院另一个组)
部门老大聊 · 30 min
HR 面 · 20 min
总结 / 踩坑

DeepSeek · 大模型训练工程师(杭州)

DeepSeek · 预训练组 · 2026.01 L4 难度高 挂在二面

背景:国内 top2 博士在读(四年级),做 MoE 路由相关方向,投稿 NeurIPS 在审。

投递渠道:官网。时间线:12/26 投递 → 1/10 笔试 → 1/17 一面 → 1/24 二面 → 1/28 二面挂,共 33 天。

笔试 · 90 min · 线上自测
一面 · 90 min · 预训练工程师 L4
二面 · 80 min · 训练基础设施 L5(挂在这里)
挂的原因 / 总结

月之暗面 · Kimi Agent 工程师(北京)

Moonshot · Kimi Agent · 2026.03 Mid offer

背景:普通 985 硕,3 年经验,上家做搜索+LLM 融合,做过 Agent 产品化。

投递渠道:猎头。时间线:2/20 投递 → 2/25 一面 → 3/4 二面 → 3/11 三面 → 3/18 HR → 3/25 offer,共 33 天。

一面 · 60 min · Kimi Agent 组工程师
二面 · 90 min · Kimi Agent 组 Tech Lead
三面 · 50 min · 业务负责人
HR 面 + 总结

小红书 · 搜推多模态算法(上海)

小红书 · 搜推多模态 · 2026.01 高级 offer

背景:2+3 年经验,前司快手做过视频理解+召回,熟悉大规模工业推荐系统。

投递渠道:官网 + 内推组合。时间线:12/15 投递 → 12/22 一面 → 12/29 二面 → 1/5 三面 → 1/12 HR → 1/20 offer,共 36 天。

一面 · 70 min · 搜推多模态组
二面 · 75 min · 搜推团队 Tech Lead
三面 · 50 min · 技术负责人
总结 / 踩坑

OpenAI · Member of Technical Staff, Applied(SF,海外对照)

OpenAI · MTS Applied · 2025.11 IC4 难度高 挂在 onsite

背景:美国 top-10 学校 PhD,论文方向 tool use + agents,之前在 FAANG 实习过两次。

投递渠道:referral(朋友在 Applied 组)。时间线:9/20 referral → 9/28 recruiter screen → 10/10 技术 phone screen → 10/24 takehome → 11/12 onsite(4 rounds)→ 11/20 反馈挂,共 61 天。

Recruiter screen · 30 min
Phone screen · 60 min · 一位 Applied 组 engineer
Takehome · 7 天窗口 · ~8 小时工作量
Onsite · 4 轮 · 每轮 60 min · 全 virtual
  1. Coding round:在他们内部 playground 里写代码,实时运行。一道偏 ML 的系统题——实现一个 batched inference 的 request scheduler,要考虑不同 seq length 的 padding 开销。面试官打字很快,我跟不上节奏。
  2. ML depth round:白板式。问"speculative decoding 的 math 推一遍"、"如果 draft model acceptance rate 是 0.6,speedup 上界是多少"、"为什么 self-speculative 有时比用小 draft model 还好"。这轮我答得最好。
  3. System design round:设计 ChatGPT 的"记忆"功能——用户可以让 ChatGPT "记住我是纯素食者",跨会话生效。要求画架构、讲隐私、讲 evaluation。我在"怎么评估记忆质量"上卡住了,没想到一个好的 metric。
  4. Behavioral / values round:问了一堆偏价值观的问题——"一个你不同意公司方向的经历"、"如果你看到同事做了不安全的模型发布你会怎么做"、"你对 AGI timeline 的看法"。OpenAI 的文化面试非常认真,不是走过场。
挂的原因 / 总结

Anthropic · Research Engineer(SF,海外对照)

Anthropic · Research Engineer · 2026.02 L4 难度高 offer

背景:美国 PhD 毕业 2 年,前司 Google Research 做 alignment,一作 ICLR 一篇。

投递渠道:Anthropic 官网(没 refer,但 recruiter 看到 paper 主动联系)。时间线:12/10 recruiter 首聊 → 12/20 takehome → 1/10 virtual onsite(5 轮)→ 1/25 team match → 2/5 offer,共 57 天。

Takehome · 10 天窗口 · ~12 小时工作量
Onsite · 5 轮(一天内 3 轮 + 另一天 2 轮)· 全 virtual
  1. Coding round · 60 min:Pair programming 风格。面试官不只看你能不能写出来,而是和你讨论设计。题目是"implement a KV-cache for a decoder-only transformer, then extend it to support paged attention"。他一边写一边和我讨论 memory layout,氛围非常协作。
  2. ML research depth · 60 min:深挖我那篇 ICLR。问到了"如果把你的方法用在 Claude 的训练里,会遇到什么 scale 相关的问题"、"你的 baseline 有没有可能其实没 converge"、"你的 human eval 里 annotator agreement 是多少、你信这个数吗"。非常严谨。
  3. System design · 60 min:题目是"设计一个 red-teaming 系统:每天产生 10 万个可能触发 Claude 不安全行为的 prompt,自动判断哪些成功了、把成功的样本 feed 回 RLAIF pipeline"。这题和他们的业务强相关。评分点:你有没有想到 attack diversity、distribution shift、false positive rate。
  4. Research taste · 60 min:一个非常 Anthropic 的环节。面试官和我一起读一篇 paper(他当场发给我)——一篇关于 sleeper agents 的论文——给我 20 分钟读,然后问"这个实验最值得复现的是哪部分、你觉得他们的结论有多可信、如果你来做你会改什么"。这是我人生中最像博士生答辩的一次面试。
  5. Behavioral / alignment-values · 60 min:比 OpenAI 还严肃。问题包括:"你对 AI safety 的 threat model 是什么"、"你在过去工作里有没有主动降低过模型能力"、"如果 Anthropic 让你做的项目你觉得不安全,你会怎么办"、"你对 RSP(Responsible Scaling Policy)有什么看法"。他们会 follow up 你的每一个答案,没提前思考过的会答得很虚。
Team match · 45 min × 2 个组
总结 / 亮点

面试流程通用建议

1. AI 项目怎么讲:STAR 不够

传统 STAR(Situation / Task / Action / Result)在 AI 岗已经不够用。面试官想听的是 指标 + trade-off + failure mode 三件套:

一个公式:"我在 [具体场景] 下做了 [具体方法],相比 [baseline][指标] 上提升了 [数字],代价是 [成本/延迟/数据依赖],在 [某类 case] 上它还不如 baseline,原因是 [机制性解释]。"

2. 如何反问

3 个值得问的问题:

  1. "你们团队现在最大的技术瓶颈是什么?"—— 面试官会很自然地讲出真实情况,能让你判断团队实际状态,也让他感受到你在认真考虑加入。
  2. "团队接下来 6 个月的 roadmap 里,你自己最期待的是哪一个?"—— 能套出方向信息。
  3. "如果我加入,我前 3 个月会做什么项目?"—— 务实信号,而且如果对方支支吾吾说明 onboarding 没想好。

3 个不要问的问题:

  1. "你们加班多吗?"—— 这个问 HR,不要在技术面试里问。
  2. "base 多少 / 股票多少?"—— 留给 HR。
  3. "你们公司和 XXX 有什么区别?"—— 太空,会让面试官觉得你没做功课。

3. 薪资谈判 · 2026 年行情参考

下表是我们从 40+ 份 offer 里汇总出的大致区间(不含 sign-on,单位万人民币/年,海外单位万美元/年)。数字波动很大,仅供参考:

公司岗位级别现金 total股票(年化)
字节 豆包大模型算法2-280–11040–80
阿里 通义post-trainingP770–9535–70
DeepSeek预训练L485–12040–100(不透明)
MoonshotAgent 工程师Mid60–90较高 upside
小红书搜推算法高级60–8530–55
OpenAIMTS AppliedIC4$260k–$340k$500k–$900k
AnthropicResearch EngineerL4$290k–$360k$600k–$1.1M

撬动 offer 的技巧:

红线 / 踩坑

红线 1 · 简历造假 / 夸大项目。只要说了"我主导了",面试官会追问 3 层。一旦出现"我们团队做的,具体这块不是我"的答案,基本挂。建议简历上"主导"、"第一负责人"只用在真的是的项目上。
红线 2 · 面试中被问细节答"忘了"。尤其是简历上写的数字——训练数据量、模型参数、线上指标——如果你答"具体数字忘了",面试官会假设你没真做过。宁可说"印象里是 X 量级,具体我回去查",也别直接说忘了。
红线 3 · 八股答得"教科书"。"RoPE 就是旋转位置编码,用旋转矩阵……" 这种答案 2024 年还行,2026 年会被面试官接一句"你在哪里用过它、换成 ALiBi 会怎样、为什么"。背书式答题在中高级岗位等同挂掉。
红线 4 · 反问环节零问题。你说"没什么想问的",面试官会在评分表里写"engagement low"。至少准备 3 个问题。
红线 5 · 讨论竞品 / 前司的 bad talk。"我前司很垃圾,所以我来这里"——无论前司真的多垃圾,面试官都会担心你离职时也会这么说他们。吐槽要有技术性("前司在 X 上的决策我不认同,因为 Y"),不要人身攻击。
最后一句心法:AI 岗面试强度越来越高是事实,但"面试官也是人"也是事实。真的亲手跑过模型的人,和背了一个月八股的人,五分钟之内就能分辨出来。与其刷题刷到凌晨,不如找一个你真感兴趣的开源项目,从 pretrain 到 SFT 到 eval 完整跑一遍——这是 2026 年最有效的面试准备。