六类主流 AI 岗位横向拆解——做什么、要什么、去哪投、给多少。看完这一页,你应该能清楚知道自己的简历该往哪个方向改。
最拥挤也最亮眼的赛道。2023 年之前还有"NLP 算法"这种叫法,现在基本统一成"大模型算法"。按做的事情可以再切成 pretrain、continue pretrain、SFT、RLHF/DPO、数据工程几条线,越靠近 pretrain 壁垒越高,越靠近 SFT/数据越卷。
举几个真实场景:一个组全年可能就做一件事——把 1T token 的中文数据洗到足够干净,然后跑一次 70B 的 continue pretrain;另一个 RLHF 组每天在和标注平台扯皮、调 reward model、盯 PPO/GRPO 的 loss 曲线不发散;还有一类是"effective training"——做数据配比实验、loss 归因、scaling law 小规模验证。
1. 负责千亿参数稠密/MoE 模型的预训练,包括但不限于数据配比、课程学习、训练稳定性优化;
2. 跟进 scaling law 前沿,设计小规模 ablation,给出大规模训练的超参决策依据;
3. 要求:有 100B 以上模型训练经验,或在顶会发表过一作 pretrain/alignment 相关工作。
1. 负责 SFT 数据清洗、配比、质量评估,主导一个垂类能力(如代码 / 数学 / agent)的提升;
2. 熟悉 DPO、GRPO、RLOO、PRM 等 RL 算法,能独立 debug reward hacking;
3. 加分:熟悉 sandbox 执行环境 / 自动评测 pipeline。
国内 字节 Seed、阿里通义、Moonshot(月之暗面)、DeepSeek、智谱、百川、MiniMax、阶跃星辰、腾讯混元。
海外 OpenAI、Anthropic、Google DeepMind、Meta FAIR / GenAI、xAI、Mistral、Cohere。
八股占比约 40%(transformer 细节、attention 变体、优化器、并行策略),手撕 20%(写 attention、KV cache、sampling),系统题 20%("给你 1000 张 H100 训 70B 怎么排布"),论文讨论 20%。越靠近 pretrain 团队,论文讨论比重越高。
2024 年起突然被抬到和算法同级工资的岗位。原因很简单:训练卡再多也是花钱,推理卡每天在帮公司收钱(或省钱),1% 的吞吐优化对一个日活千万的产品可能就是每年千万级的成本。
典型一天:早上看昨晚线上 P99 延迟为什么尖了一下,定位到是某个 prompt 触发了超长 decode;中午在 vLLM 上提一个 PR 把 chunked prefill 的 block size 调一下;下午和算法组撕——他们想上一个新模型但 KV cache 布局不兼容,你得评估要改多少 kernel;晚上跑一组 FP8 vs INT8 的精度对比。
1. 负责自研推理引擎的 kernel 层优化,重点方向:MoE 推理、long context prefill、投机解码;
2. 参与量化方案落地(INT4 / FP8),对精度与吞吐 trade-off 有量化判断;
3. 要求:精通 CUDA;有开源推理框架(vLLM/TRT-LLM/SGLang)贡献者优先。
1. 针对 DeepSeek 系列 MoE 模型做 expert parallel 下的通信优化,目标是把 all-to-all 的开销压到 10% 以内;
2. 主导一次完整的 H20/H100 迁移,输出性能对比报告;
3. 要求:有千卡以上推理集群排障经验。
国内 字节、阿里、腾讯、DeepSeek、Moonshot、硅基流动、摩尔线程、华为昇腾(自研路线)。
海外 NVIDIA、OpenAI、Anthropic、Together AI、Fireworks、Groq、Cerebras、AWS(Inferentia / Trainium 团队)。
手撕占大头,约 40%——现场写 CUDA kernel(reduce、softmax、一个简化版 attention)、写 C++ 线程池。系统设计 30%("设计一个支持 100 并发的 LLM serving")。八股 20%(量化、KV cache、调度算法)。论文讨论 10%,主要是近期工程论文(FlashAttention、vLLM、Medusa)。
和推理优化常被放在一起,但其实很不一样。推理是"低延迟 + 高吞吐",训练是"大规模 + 稳定性 + 通信"。一次万卡训练中断重启成本就是几十万美元,Infra 工程师的核心价值是让训练不挂、挂了能快速恢复。
看 wandb 上 loss 有没有尖刺、某个 rank 是不是掉队;调 3D parallel(TP/PP/DP)的 shape 让 bubble 最小;debug 某张卡 ECC error 换卡重启的 checkpoint 加载流程;写一个 NCCL 的 hang detector,30 秒没 progress 就 dump stack 自动重启。很多时间其实在处理硬件故障、网络抖动、文件系统问题。
1. 负责公司自研训练框架的并行策略层,支持稠密 / MoE / VLM 等多形态模型;
2. 优化 checkpoint、通信、容错等核心链路,目标 MFU ≥ 55% @ H100;
3. 要求:对 PyTorch 2.x 的 compile / distributed 有深入理解;有万卡规模训练经验优先。
1. 负责训练任务的 job 调度、优先级抢占、故障自愈;
2. 推动 NCCL 通信的 topology-aware 优化,降低跨机房 all-reduce 带宽占用;
3. 加分:有开源贡献(Megatron / NeMo / Ray)。
国内 字节 AML、阿里 PAI、腾讯机智、百度飞桨、华为、智谱、Moonshot、商汤。
海外 Meta(PyTorch/FSDP 团队)、NVIDIA(Megatron/NeMo)、Google(JAX/Pathways)、OpenAI、Anthropic、Databricks、CoreWeave。
系统设计占大头(约 40%):给一个 70B 模型 + 512 张卡,让你设计 TP/PP/DP 切分并估算 MFU。八股 30%(NCCL 算法、PyTorch 分布式、通信优化)。手撕 20%,多是 C++/Python 的并发题。论文 10%。
2024 下半年开始才成规模的新工种。本质是"用别人训好的模型,做出有用的产品"。岗位名字特别杂:AI 产品工程师、Agent 工程师、Applied Scientist、Solution Architect,做的事其实很像——都是在模型、工具、数据、前端之间搭桥。
拿一个 Claude / Qwen-Max / GPT 当底座,做一个具体产品——可能是写代码 Agent、客服 Agent、数据分析 Agent。70% 的时间在写 prompt 和评估 pipeline,20% 在做工具调用 / MCP server / browser 控制,10% 在调 RAG 的召回和 rerank。很少训模型,偶尔做一点 LoRA 或 small model 蒸馏。产出看的是产品指标(任务成功率、用户留存),不是 loss。
1. 和客户团队一起把 Claude 集成到他们的业务流程中,解决从 demo 到生产的所有问题;
2. 主导至少一个行业垂类的 agent 模板建设(金融 / 法律 / 代码);
3. 要求:能读 Python,但更看重产品直觉与快速迭代能力。
1. 负责 codebase 理解、检索与编辑规划模块,目标是 SWE-bench Verified 提升 10 个点;
2. 设计工具集(文件读写、LSP、git、bash),保证 agent 在长任务下不 loop;
3. 加分:有 Copilot / Cursor / Cline / Aider 类产品使用经验,能说出每家的 trade-off。
国内 Moonshot、字节(豆包/Coze/Trae)、阿里(百炼/通义灵码)、腾讯、MiniMax、Dify、扣子、Manus、各类 AI 创业公司。
海外 OpenAI、Anthropic、Cursor、Replit、Perplexity、Glean、Harvey、Cognition(Devin)、Factory、Poolside。
产品 case 讨论是重头戏(约 40%):"你会怎么设计一个订机票的 agent?怎么评估?失败怎么 recover?"手撕 25%(LeetCode 中等)。系统设计 20%(RAG 系统、agent orchestration)。八股比例很低,约 15%,主要是 transformer 基础常识。几乎不问论文。
每年都有人喊"推荐要被大模型颠覆",每年大厂都在继续批量招推荐算法。原因:广告和电商的钱还是靠推荐在赚,CTR 提升 0.5% 的收入增量远大于"用 LLM 做推荐"的 ROI。对应届生来说,这个赛道实际上比大模型好进,且有明确的收益归因。
主流是"堆特征 + 调模型 + AB 实验"三件套。典型一周:周一和产品对齐新实验组的目标(比如提升女装类目停留时长);周二挖新特征(用户近 7 天点击的同 shop 商品 embedding);周三改精排模型加一个 target attention;周四灰度 1% 观察;周五 AB 报告——大盘 CTR +0.12%、GMV +0.3%,发周会。
1. 负责商品推荐精排模型迭代,目标 CTR 与 GMV 双提升;
2. 探索生成式召回、LLM 语义理解在推荐链路的落地;
3. 要求:扎实的机器学习基础,有大规模在线实验经验。
1. 优化多目标双塔召回,平衡多样性与相关性;
2. 建设向量索引(HNSW / ScaNN)的工程化能力;
3. 加分:对对比学习、embedding 坍缩有深入思考。
国内 字节(抖音 / TikTok / 电商 / 广告)、阿里(淘宝 / 1688 / 阿里妈妈)、腾讯(微信看一看 / 广告 / 视频号)、快手、美团、京东、小红书、拼多多。
海外 Meta(Ads / Reels)、Google Ads、TikTok US、Netflix、Pinterest、Airbnb、Uber、Shopify。
八股 45%(所有推荐论文从 wide&deep 到 SIM 到 HSTU,都要能画图讲清楚)。业务场景题 25%("如果冷启用户占比突然涨 10%,你怎么定位")。手撕 20%(LeetCode 中等 + 写一个 AUC)。系统设计 10%。几乎不问论文前沿,但问业务落地细节非常深。
和"大模型算法工程师"容易混。区别是:算法工程师产出的是更好的线上模型,Research 产出的是可被同行 cite 的论文。一个典型信号是 JD 里写"要求一作顶会论文 X 篇"还是"要求有线上模型迭代经验"。
读论文(每天 2-5 篇 arxiv)、想 idea、跑 small-scale 实验、写论文、审稿。很多 Research 岗有 1-3 个月的"自由探索期",之后需要对外 publish。国内几家大厂的 Research 团队(字节 Seed、阿里达摩、腾讯 AI Lab、华为诺亚)+ 高校合作 + 实习生带队是常态。
1. 主导一个 research 方向(如 reasoning / agent / multimodal),每年产出 2-3 篇顶会一作或 co-lead;
2. 和 engineering 团队合作把 research idea 转化为下一代模型能力;
3. 要求:博士;至少 3 篇相关顶会论文,h-index ≥ 8。
1. Drive research on alignment, interpretability, or capability evaluation;
2. Publish when publishing advances our mission, but impact on models is primary;
3. Strong empirical skills required; theoretical background welcomed but not sufficient alone.
国内 字节 Seed / Research、阿里达摩院、腾讯 AI Lab、华为诺亚、百度研究院、微软亚研(MSRA)、上海 AI Lab、智源。
海外 Google DeepMind、OpenAI、Anthropic、Meta FAIR、NVIDIA Research、Apple MLR、MSR Redmond、Mistral、Cohere、Allen AI。
论文讨论 50%——让你 1 小时讲自己的工作,每 30 秒可能被打断提问。Research taste 面 20%("最近最喜欢哪篇论文,为什么")。手撕 15%。八股 10%。系统题很少,但数学推导会现场让你写。Research 岗最终是看 taste 的主观判断,hire bar 最难稳定。
下面这张表是上面 6 个岗位的"一张图看懂"版。注意这是行业普遍情况的估计值,具体公司、具体团队会有较大偏差。
| 维度 | LLM 算法 | 推理优化 | AI Infra | Agent/Applied | 推荐搜索 | Research |
|---|---|---|---|---|---|---|
| 核心技能栈 | PyTorch、Megatron、数据工程、RLHF | CUDA、C++、vLLM/TRT-LLM、量化 | Megatron/DeepSpeed、NCCL、k8s | Prompt、RAG、MCP、产品直觉 | GBDT/DNN、SQL/Spark、AB 实验 | 数学、论文写作、实验设计 |
| 入门门槛 | 高(需要顶校 + 项目) | 高(CUDA 难学) | 中高(工程经验要求高) | 中(最低,但天花板不低) | 中(可以从实习做起) | 极高(博士 + 一作顶会) |
| 卷度 | 极卷,简历海 | 卷,但供给少 | 中等,需求稳定 | 卷程度上升中 | 稳卷,批量招人 | 最卷(每个坑上百人抢) |
| 天花板 | 极高(pretrain lead) | 高(稀缺工种) | 高(集群 leader) | 中高(CTO / 创始人路径) | 高(广告 / 电商负责人) | 极高(首席科学家) |
| 应届友好度 | 难,但不是没机会 | 中(有 CUDA 实习就行) | 中(hpc / 系统背景有优势) | 友好(项目驱动) | 最友好(成熟招聘线) | PhD only |
| 5 年后前景 | 头部模型公司继续聚拢 | 随模型规模扩大只会更重要 | 同上,不会消失 | 如果 agent 爆发,这是最大赢家 | 存在,但岗位数可能缓慢下降 | 论文产出门槛越来越高,分化严重 |
| 是否需要 GPU | 需要(大量) | 需要 | 需要(集群) | 几乎不需要 | 需要(但已经是成熟基础设施) | 需要 |
| 线上反馈周期 | 周~月 | 天~周 | 天 | 小时~天 | 小时~天 | 月~年 |
上面的信息看完,你可能更焦虑了——都想做。下面给几条自查式的决策建议,每条对应一类典型画像。
arxiv.org/abs/... 的最新论文并推公式 → Research 或 LLM pretrain。从 Infra / 推理转到算法相对容易(你已经比大部分算法的人更懂训练细节);从算法转到 Research 难(要补论文);从 Agent 转到 pretrain 最难(几乎要从头学)。如果不确定,优先选可逆性更高的——也就是越底层、越"硬"的方向,未来换赛道的摩擦越小。