AI 每日热点 - 2026-05-22

Claude AI 分析

今日洞察

AI 行业日报 · 2026-05-22

今日速览

今日最大焦点来自社区：OpenAI 称其通用推理模型找到了 Erdős 单位距离猜想的反例，这是 AI 系统首次在顶级未解数学猜想上取得实质性突破，引发学界广泛关注与争议。与此同时，Qwen 3.7 开源权重发布，社区直呼"新王已至"，开源模型竞争再度白热化。论文层面今日集中爆发，8 篇全为新论文，且高度集中在 Agent 评测体系建设和多 Agent 协作两个方向，显示学界正在系统性补齐 Agent 落地的基础设施短板。工程侧，codegraph 连续第 5 天高热（今日 +4,294 星），已成本周最受关注的开发者工具。

重点项目点评

1. SOLAR：终身学习自优化 Agent 【新论文】

Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

终身学习是 Agent 走向真实部署的核心瓶颈——当前大多数 Agent 是"无记忆的一次性执行器"。SOLAR 提出的自优化开放式框架意味着 Agent 可以在执行过程中持续积累经验、修正策略，而不依赖人工标注的 reward 信号。若这一方向成立，其价值不亚于 RAG 对知识获取的革新——它解决的是能力积累而非知识检索的问题，是 AGI 路线上绕不开的一环。

2. AgentAtlas：评测体系的范式迁移【新论文】

Beyond Outcome Leaderboards for LLM Agents

当前 Agent 排行榜几乎全部以"完成率"作为唯一指标，掩盖了大量过程层面的能力差异。AgentAtlas 明确提出超越结果排行榜，转向对中间步骤、工具使用效率、错误恢复能力等多维度的诊断性评测。这对行业影响深远：如果这套框架被社区接受，"刷榜"难度将成倍提升，同时也能更精准地指导模型改进方向，推动 Agent 从"能完成任务"走向"可靠完成任务"。

3. AgentCo-op：可互操作多 Agent 工作流【新论文】

Retrieval-Based Synthesis of Interoperable Multi-Agent Workflows

多 Agent 系统目前最大的工程痛点是跨框架、跨角色的协作规范缺失——LangGraph 的 Agent 无法直接接管 AutoGen 的任务。AgentCo-op 用检索增强的方式合成可互操作的工作流，本质上是在为 Agent 生态建立"接口标准层"。随着企业级多 Agent 部署需求增长，这类基础设施工作的价值将被迅速放大。

4. dotnet/skills：微软官方入场 AI 技能生态【新 GitHub】

微软以 dotnet/skills 官方仓库形式发布 .NET/C# AI 编程助手技能库，意义在于主流企业技术栈的 AI 原生化正在从第三方迁移到官方支持。.NET 生态覆盖大量金融、政务、制造业存量系统，官方出品意味着这些领域的 AI 编程工具采购决策壁垒大幅降低，是 AI 编程助手向传统行业渗透的重要信号。

5. OpenAI 推理模型与 Erdős 猜想【社区热点】

这条消息若属实，其意义超越 AlphaProof 之前的进展——Erdős 猜想是组合数学中的著名开放问题，而"反例"比"证明"在验证上更直接。更值得关注的是方法论：通用推理模型（而非专门训练的数学模型） 取得数学突破，意味着推理能力的泛化程度可能已超出预期。需等待正式论文和独立验证，但这一方向的信号极强。

趋势洞察

趋势一：Agent 评测基础设施正在系统化建设

今日 AgentAtlas、Open-World Evaluations、ECUAS_n 三篇论文同日出现，且方向各异（过程评测、开放世界能力测量、不确定性量化），这不是巧合，而是社区意识到 Agent 落地的最大瓶颈已从"能力构建"转向"可信评估"。没有可靠的评测体系，企业无法做技术选型，研究者无法比较方法好坏。预计未来 6-12 个月，Agent benchmarking 将成为一个独立的研究子领域，并催生若干专注于此的创业公司。

趋势二：开源模型竞争进入"季更"节奏

Qwen 3.7 本周发布，距 Qwen 3 正式版不过数周；与此同时 MiniCPM-V-4.6 已连续 11 天保持 HuggingFace 热榜。中国头部机构的开源节奏已压缩到季度级甚至月度级，每次发布都在重新定义性价比基线。对应用开发者而言，这意味着模型选型决策的有效期越来越短；对闭源商业模型而言，定价压力将持续加剧。

趋势三：AI 编程工具生态的"官方化"加速

本周出现 anthropics/claude-plugins-official（Anthropic 官方插件目录）和 dotnet/skills（微软官方技能库）同步热榜的局面，叠加上周 AI 编程助手 skill 体系的持续活跃，表明 AI 编程工具链正从社区自发迁移到厂商官方主导。这一转变会加速企业采购决策，但也可能抑制独立开发者生态的多样性——当 Anthropic 和微软都开始维护官方目录，第三方插件的生存空间需要重新评估。

值得跟进

项目 / 论文	建议理由
SOLAR 论文	终身学习 Agent 是下一代 AI 工程基础问题，值得精读架构设计
AgentAtlas	若评测框架被社区采纳，将影响整个 Agent 开发链路，需提前理解
OpenAI Erdős 猜想反例	等待正式论文，若验证属实是里程碑事件；需持续跟踪后续声明
dotnet/skills	企业 .NET 技术栈的 AI 落地参考，适合关注传统行业 AI 转型的读者
colbymchenry/codegraph	连续 5 天高热、累计数万星，代码知识图谱减少 token 消耗的思路值得在实际项目中验证

💻 GitHub 热门 AI 项目

1 anthropics/claude-plugins-official

Anthropic 官方维护的高质量 Claude Code 插件目录

官方背书的插件集市，是扩展 Claude Code 能力的最权威入口

连续3天 +682 today Python

2 colbymchenry/codegraph

为多款 AI 编程助手提供预索引代码知识图谱，减少 token 消耗

本地化知识图谱方案，大幅降低大型项目中 AI 的上下文开销

连续5天 +4,294 today TypeScript

3 multica-ai/andrej-karpathy-skills

单文件 CLAUDE.md，提炼自 Karpathy 对 LLM 编码陷阱的观察

Karpathy 背书的最佳实践提炼，一个文件即可改善 Claude Code 行为

连续3天 +2,614 today

4 dotnet/skills

微软官方出品的 .NET / C# AI 编程助手技能库

微软官方维护，是 .NET 生态接入 AI Coding Agent 的标准技能集

NEW +129 today C#

5 HKUDS/CLI-Anything

让任意软件具备 Agent 原生能力的 CLI 统一接入框架

香港大学团队出品，试图将所有 CLI 工具统一纳入 Agent 工作流

连续5天 +656 today Python

6 rohitg00/ai-engineering-from-scratch

从零学习、构建并发布 AI 工程项目的实战课程

体系化的 AI 工程入门路径，涵盖从学习到上线的完整链路

+1,333 today Python

7 teng-lin/notebooklm-py

Google NotebookLM 的非官方 Python API，支持 CLI 与 AI Agent 调用

解锁 NotebookLM 隐藏能力，让 AI Agent 可编程操控 NotebookLM

NEW +186 today Python

8 can1357/oh-my-pi

终端 AI 编程 Agent，支持哈希锚定编辑、LSP、浏览器及子 Agent

工具链高度优化的终端 Agent，哈希锚定编辑确保代码修改精准可靠

+500 today TypeScript

9 antoinezambelli/forge

面向自托管 LLM 的 Python 工具调用与多步 Agentic 工作流框架

轻量自托管方案，无需云服务即可构建完整的多步 Agent 工作流

NEW +398 today Python

10 multica-ai/multica

开源托管 Agent 平台，将编程 Agent 变成可分配任务的真实队友

将 AI Agent 工程化为「团队成员」，支持任务分配与进度追踪

NEW +534 today Go

11 Imbad0202/academic-research-skills

覆盖研究→写作→审阅→修改→定稿全流程的学术写作技能集

端到端的学术科研 Agent 技能链，适合需要用 AI 辅助论文写作的研究者

连续4天 +2,579 today Python

12 truelockmc/streambert

跨平台 Electron 桌面应用，可流媒体播放全球影视动漫，无广告

零广告零追踪的全球影视聚合播放器，Electron 跨平台开箱即用

+1,094 today JavaScript

13 msitarzewski/agency-agents

完整 AI 代理机构工具集，含前端、社媒、内容等多角色专属 Agent

每个 Agent 都有鲜明人格与专属流程，是构建多角色 AI 团队的参考实现

连续5天 +1,018 today Shell

14 Lum1104/Understand-Anything

将任意代码转为可探索、可问答的交互式知识图谱

「可教学的图谱」理念新颖，让代码理解从静态可视化升级为交互式问答

NEW +666 today TypeScript

🤗 HuggingFace 热门

模型

1 bytedance-research/Lance

字节跳动研究院发布的大语言模型，面向推理与指令跟随任务优化。

连续3天 any-to-any 739 下载 571 赞

2 openbmb/MiniCPM-V-4.6

面壁智能出品的轻量级多模态大模型，支持图文理解与问答，参数量小但性能媲美大模型

连续11天 image-text-to-text 196,105 下载 875 赞

3 Supertone/supertonic-3

Supertone出品的轻量级多语言TTS模型，支持31种语言，仅99M参数，可在CPU上本地运行，支持表情标签

连续10天 text-to-speech 34,965 下载 535 赞

4 SulphurAI/Sulphur-2-base

基于LTX 2.3的开源视频生成模型，支持文本转视频和图像转视频，内置提示词增强器，无内容审查限制。

连续18天 text-to-video 1,198,471 下载 1233 赞

5 unsloth/Qwen3.6-27B-MTP-GGUF

Qwen3.6 27B参数模型的GGUF量化版本，由Unsloth优化，支持多token预测（MTP），适合本地推理部署。

连续8天 image-text-to-text 478,488 下载 375 赞

6 NemoStation/Marlin-2B

NEW video-text-to-text 2,353 下载 218 赞

7 sapientinc/HRM-Text-1B

text-generation 58,922 下载 214 赞

8 circlestone-labs/Anima

连续7天 591,834 下载 1468 赞

9 unsloth/Qwen3.6-35B-A3B-MTP-GGUF

连续8天 image-text-to-text 421,542 下载 314 赞

10 froggeric/Qwen-Fixed-Chat-Templates

连续4天 0 下载 356 赞

数据集

1 PsiBotAI/SynData

大规模第一人称视角合成视频数据集，含44.9万条多模态数据，覆盖107种任务，用于机器人操作与动作识别训练

连续7天 146,273 下载 161 赞

2 angrygiraffe/claude-opus-4.6-4.7-reasoning-8.7k

包含约8700条Claude Opus 4.6/4.7推理链的微调数据集，用于蒸馏或增强模型思维链能力。

连续16天 3,803 下载 170 赞

3 TuringEnterprises/Open-MM-RL

图灵企业发布的开源多模态强化学习数据集，用于提升视觉语言模型的推理与对齐能力

连续10天 10,462 下载 197 赞

4 AlienKevin/SWE-ZERO-12M-trajectories

软件工程代理轨迹数据集，含1200万条零样本代码修复与任务执行轨迹，用于训练SWE智能体。

连续8天 9,357 下载 96 赞

5 5CD-AI/Viet-Handwriting-OCR-v2

越南语手写文字识别OCR模型第二版，专为越南文手写体场景设计优化。

连续4天 321 下载 48 赞

6 TeichAI/DeepSeek-v4-Pro-Agent

连续5天 2,738 下载 50 赞

7 Modotte/CodeX-2M-Thinking

连续5天 6,071 下载 106 赞

8 Jackrong/GLM-5.1-Reasoning-1M-Cleaned

连续26天 11,530 下载 218 赞

9 Qwen/WebWorldData

连续7天 703 下载 47 赞

10 actava/chi-bench

NEW 1,232 下载 26 赞

热门论文

1 Gated DeltaNet-2：解耦线性注意力中的擦除与写入

Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

通过引入独立的通道门控机制分离擦除与写入操作，改进现有线性注意力模型，在长上下文语言建模与检索任务上取得更优性能。

NEW 1 票 Ali Hatamizadeh, Yejin Choi, Jan Kautz

2 Swift Sampling：基于泰勒展开的时序惊喜帧选择

Swift Sampling: Selecting Temporal Surprises via Taylor Series

一种无需训练的视频帧选择算法，通过分析潜空间中视觉特征轨迹的偏离程度，识别视频中信息量最高的关键帧。

NEW 1 票 Dahye Kim, Bhuvan Sachdeva, Karan Uppal, Naman Gupta

3 ACC：将智能体轨迹编译用于长上下文训练

ACC: Compiling Agent Trajectories for Long-Context Training

将多轮智能体交互轨迹转化为结构化问答对，无需额外标注即可直接监督模型对远距离上下文的整合能力，提升大模型长上下文推理。

NEW 9 票 Qisheng Su, Zhen Fang, Shiting Huang, Yu Zeng

4 结构化表格发现驱动的多样化模型搜索

Diversed Model Discovery via Structured Table Discovery

结合语义检索与结构化表格检索的模型搜索系统，提升推荐模型的多样性与覆盖范围。

NEW 2 票 Zhengyuan Dong, Renée J. Miller

5 RiT：表示空间中的普通扩散Transformer已足够

RiT: Vanilla Diffusion Transformers Suffice in Representation Space

在统计特性更优的表示空间中进行流匹配，实现参数更少、采样更快的高效扩散模型训练。

NEW 3 票 Le Zhang, Ning Mang, Aishwarya Agrawal

6 基于证据校准查询聚类的LLM能力评估

Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

查询聚类算法ECC通过后验模型对比与Bradley-Terry建模，对齐语义嵌入与潜在能力需求，提升大模型能力评估的准确性。

NEW 1 票 Fangzhou Wu, Sandeep Silwal, Qiuyi Zhang

7 DynMuon：Muon优化器的动态谱整形视角

DynMuon: A Dynamic Spectral Shaping View of Muon

从谱整形角度分析Muon优化器，通过训练过程中动态调整更新参数提升收敛效率，以更少训练步骤获得更低验证损失。

NEW 1 票 Fangzhou Wu, Rikhav Shah, Sandeep Silwal, Qiuyi Zhang

8 TIDE：面向MoE扩散大语言模型的高效无损I/O感知专家卸载推理

TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload

针对资源受限设备上MoE扩散大语言模型的部署难题，利用专家激活的时序稳定性并优化专家布局，大幅降低I/O开销与计算量。

NEW 1 票 Zhiben Chen, Youpeng Zhao, Yang Sui, Jun Wang

9 通过字节级模拟解耦子词分词对语言模型训练的收益

Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

通过受控字节级预训练实验，系统研究子词分词对大模型训练效率与性能的影响，揭示训练吞吐量与语言先验中的关键因素。

NEW 1 票 Théo Gigant, Bowen Peng, Jeffrey Quesnelle

10 变分策略蒸馏：从语言反馈中学习

Learning from Language Feedback via Variational Policy Distillation

提出变分策略蒸馏框架，通过变分期望最大化协同演化教师与学生策略，克服被动蒸馏在复杂推理任务中的局限，实现从语言反馈的强化学习。

NEW 6 票 Yang Li, Erik Nijkamp, Semih Yavuz, Shafiq Joty

📝 ArXiv 最新 AI 论文

1 SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

arXiv:2605.20189v1 Announce Type: new Abstract: Despite the remarkable success of large language models (LLMs), they still face bottlenecks while deploying in dynamic, real-world settings with primary

NEW Nitin Vetcha, Dianbo Liu · Thu, 21 Ma cs.AI

2 Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

arXiv:2605.20190v1 Announce Type: new Abstract: Iterative industrial design-simulation optimization is bottlenecked by the CAD-CAE semantic gap: translating simulation feedback into valid geometric ed

NEW Liyuan Deng, Shujian Deng, Yongkang Chen 等 · Thu, 21 Ma cs.AI

3 OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

arXiv:2605.20423v1 Announce Type: new Abstract: Large Language Models (LLMs) perform well on many language tasks, but their Theory of Mind (ToM) reasoning is still uneven in complex social settings. E

NEW Sharmin Sultana Srishty, Kazi Mahathir Rahman, Malaika Parizat Sakkhi 等 · Thu, 21 Ma cs.AI

4 AgentCo-op: Retrieval-Based Synthesis of Interoperable Multi-Agent Workflows

arXiv:2605.20425v1 Announce Type: new Abstract: Designing multi-agent workflows is especially difficult in open-ended scientific settings where tasks lack curated training sets, reliable scalar evalua

NEW Shuaike Shen, Wenduo Cheng, Shike Wang 等 · Thu, 21 Ma cs.AI

5 High Quality Embeddings for Horn Logic Reasoning

arXiv:2605.20467v1 Announce Type: new Abstract: Neural networks can be trained to rank the choices made by logical reasoners, resulting in more efficient searches for answers. A key step in this proce

NEW Yifan Zhang, Yasir White, Dean Clark 等 · Thu, 21 Ma cs.AI

6 $ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

arXiv:2605.20490v2 Announce Type: new Abstract: In high-stakes automated decision-making, access to predictive uncertainty is essential for enabling users -- human or downstream systems -- to accept o

NEW Lautaro Estienne, Erik Ernst, Mat\'ias Vera 等 · Thu, 21 Ma cs.AI

7 Open-World Evaluations for Measuring Frontier AI Capabilities

arXiv:2605.20520v1 Announce Type: new Abstract: Benchmark-based evaluation remains important for tracking frontier AI progress. But it can both overstate and understate deployed capability because it

NEW Sayash Kapoor, Peter Kirgis, Andrew Schwartz 等 · Thu, 21 Ma cs.AI

8 AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

arXiv:2605.20530v1 Announce Type: new Abstract: Large language model agents now act on codebases, browsers, operating systems, calendars, files, and tool ecosystems, but the benchmarks used to evaluat

NEW Parsa Mazaheri, Kasra Mazaheri · Thu, 21 Ma cs.AI

9 Personality Engineering with AI Agents: A New Methodology for Negotiation Research

arXiv:2605.20554v1 Announce Type: new Abstract: According to canonical negotiation theory, people's success in a negotiation depends on how well they balance competing demands--empathizing and asserti

NEW Michelle A. Vaccaro, Jared R. Curhan · Thu, 21 Ma cs.AI

10 Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX

arXiv:2605.20577v1 Announce Type: new Abstract: Riichi Mahjong is a multi-player, imperfect-information game characterized by stochasticity and high-dimensional state spaces. These attributes present

NEW Soichiro Nishimori, Shinri Okano, Keigo Habara 等 · Thu, 21 Ma cs.AI

11 From Automated to Autonomous: Hierarchical Agent-native Network Architecture (HANA)

arXiv:2605.20608v1 Announce Type: new Abstract: Realizing Level 4/5 Autonomous Networks (AN) demands a shift from static automation to agent-native intelligence. Current operations, reliant on rigid s

NEW Binghan Wu, Shoufeng Wang, Yunxin Liu 等 · Thu, 21 Ma cs.AI

12 COAgents: Multi-Agent Framework to Learn and Navigate Routing Problems Search Space

arXiv:2605.20618v1 Announce Type: new Abstract: Although Vehicle Routing Problems (VRP) are essential to many real-world systems, they remain computationally intractable at scale due to their combinat

NEW Oleksandr Yakovenko, Mahdi Mostajabdaveh, Cheikh Ahmed 等 · Thu, 21 Ma cs.AI

🔥 AI 社区热议

1 [讨论] 自我推广帖

r/MachineLearning 社区定期开放的自我推广专帖，成员可分享个人项目、论文、工具或研究成果，促进社区内的交流与曝光。

连续15天 Reddit r/MachineLearning

2 [讨论] 月度招聘与求职帖

机器学习社区每月例行招聘帖，企业发布岗位需求，求职者展示技能背景，连接 ML 领域的供需双方。

NEW Reddit r/MachineLearning

3 视觉-语言-动作模型（VLA）中的新问题 [研究]

探讨视觉-语言-动作（VLA）模型面临的前沿挑战，涉及多模态感知与机器人控制结合时的未解难题与研究空白。

NEW Reddit r/MachineLearning

4 生产环境中的 VLM 仍在使用固定分块 ViT 做视觉编码吗？[讨论]

讨论视觉语言模型在实际部署中是否仍依赖传统固定 patch 的 ViT 架构，还是已转向更灵活的视觉编码方案。

NEW Reddit r/MachineLearning

5 活体检测模型能否泛化到训练时未见过的合成媒体生成技术？[讨论]

探讨活体检测模型对新型 AI 生成/换脸技术的泛化能力，核心问题是模型能否在未见过的 deepfake 方法上保持有效。

NEW Reddit r/MachineLearning

6 OpenAI 称通用推理模型找到了 Erdős 单位距离猜想的反例 [讨论]

OpenAI 宣称其推理模型发现了数学经典猜想 Erdős 单位距离界的反例，社区热议此成果的真实性与意义。

NEW Reddit r/MachineLearning

7 Heretic 收到 Meta 公司发出的法律通知

本地 LLM 社区关注的 Heretic 项目遭 Meta 发出法律警告，引发社区对开源模型使用边界与法律风险的广泛讨论。

NEW Reddit r/LocalLLaMA

8 等待 Qwen 3.7 开源权重……新王已至……

社区对 Qwen 新版本开源权重的期待与讨论，有人认为新发布的模型已达到同类最强水平，堪称「新王」。

NEW Reddit r/LocalLLaMA

9 Qwen3.6 35B-A3B 改变了我的工作流，甚至改变了我使用电脑的方式

用户分享 Qwen3.6 35B MoE 模型的实际使用体验，称其显著提升了日常效率，从根本上改变了与电脑交互的习惯。

NEW Reddit r/LocalLLaMA

10 最新 b9274 版本修复了 MTP 的 VRAM 泄漏问题

llama.cpp 或相关推理框架的新版本修复了多 token 预测（MTP）功能导致的显存泄漏 bug，社区反馈持续跟进。

NEW Reddit r/LocalLLaMA

11 LatitudeGames/Equinox-31B 发布于 Hugging Face

游戏公司 LatitudeGames 在 Hugging Face 上发布了 31B 参数的 Equinox 模型，社区讨论其特性与实际表现。

NEW Reddit r/LocalLLaMA

12 用 ik_llama.cpp 在 12GB 显存上跑 Qwen3.6 35B-A3B 达到 110 tok/s

用户展示在仅 12GB 显存的消费级 GPU 上，借助 ik_llama.cpp 优化推理框架实现 110 token/s 的高速运行 Qwen3.6 35B MoE 模型。

NEW Reddit r/LocalLLaMA

📰 Hacker News AI

1 Launch HN: Runtime (YC P26) – Sandboxed coding agents for everyone on a team

Launch HN：Runtime（YC P26）—— 为团队每位成员提供沙盒化编程 Agent

YC P26 孵化项目 Runtime 正式发布，提供隔离沙盒环境中运行的编程 Agent，让团队所有成员都能安全使用 AI 编码助手，避免代码执行带来的安全风险。

NEW 68 分 20 条评论

2 Multi-Stream LLMs: new paper on parallelizing/separating prompts, thinking, I/O

多流 LLM：关于并行化/分离提示词、思维链与 I/O 的新论文

新论文提出 Multi-Stream LLM 架构，将提示词、模型思考过程与输入输出解耦并行处理，旨在提升大型语言模型的推理效率与吞吐量。

NEW 59 分 5 条评论

3 Throwing AI-generated walls of text into conversations

把 AI 生成的大段文字扔进对话里会怎样

作者探讨将 AI 生成的冗长文本直接插入真实对话的实验与感受，引发关于 AI 内容泛滥、交流质量下降以及人机文本边界的讨论。

NEW 501 分 302 条评论

4 Show HN: Agent.email – sign up via curl, claim with a human OTP

Show HN：Agent.email —— 用 curl 注册、人工 OTP 认领的邮件 Agent 服务

Agent.email 是一个面向 AI Agent 的邮箱服务，开发者可通过 curl 命令注册邮件地址，通过人工一次性密码完成所有权认领，方便 Agent 自动收发邮件。

NEW 60 分 66 条评论

5 Show HN: I Made a Claude Skill for Spec-Driven Development (SDD)

Show HN：我为规范驱动开发（SDD）制作了一个 Claude Skill

开发者开源了一个 Claude Code Skill，将规范驱动开发（Spec-Driven Development）流程嵌入 Claude，让 AI 在编码前先生成并对齐规范文档，再动手实现。

NEW 19 分 2 条评论

6 An OpenAI model has disproved a central conjecture in discrete geometry

OpenAI 模型推翻了离散几何学的一个核心猜想

OpenAI 的模型在数学研究中取得重大突破，成功推翻了离散几何领域长期存在的一个核心猜想，标志着 AI 在纯数学定理发现方面迈出重要一步。

1373 分 997 条评论

7 Anthropic is expanding to Colossus2. Will use GB200

Anthropic 正在扩建 Colossus2，将使用 GB200 GPU

Anthropic 宣布扩张至 Colossus2 超算集群，并将采用 NVIDIA GB200 芯片，表明其在算力基础设施上持续加码以支撑更大规模模型训练。

287 分 322 条评论

8 OpenAI Is Preparing to File for an IPO Soon

OpenAI 即将提交 IPO 申请

据《华尔街日报》报道，OpenAI 正积极筹备上市，预计很快提交 IPO 申请文件，此举将是 AI 行业迄今规模最大的资本市场事件之一。

NEW 182 分 383 条评论

9 Samsung chip workers will get an average $340k bonus as AI profits soar

AI 利润飙升，三星芯片工人平均获约 34 万美元奖金

受益于 AI 需求爆发带动半导体业务大幅盈利，三星为芯片部门员工发放丰厚奖金，人均约 34 万美元，折射出 AI 产业链利润向上游硬件端传导的趋势。

NEW 8 分 1 条评论

今日洞察

AI 行业日报 · 2026-05-22

今日速览

重点项目点评

1. SOLAR：终身学习自优化 Agent 【新论文】

2. AgentAtlas：评测体系的范式迁移 【新论文】

3. AgentCo-op：可互操作多 Agent 工作流 【新论文】

4. dotnet/skills：微软官方入场 AI 技能生态 【新 GitHub】

5. OpenAI 推理模型与 Erdős 猜想 【社区热点】

趋势洞察

趋势一：Agent 评测基础设施正在系统化建设

趋势二：开源模型竞争进入"季更"节奏

趋势三：AI 编程工具生态的"官方化"加速

值得跟进

2. AgentAtlas：评测体系的范式迁移【新论文】

3. AgentCo-op：可互操作多 Agent 工作流【新论文】

4. dotnet/skills：微软官方入场 AI 技能生态【新 GitHub】

5. OpenAI 推理模型与 Erdős 猜想【社区热点】