AI 每日热点 - 2026-05-15

Claude AI 分析

今日洞察

AI 行业日报 · 2026-05-15

今日速览

今日最显著的信号是 Claude Code 生态的爆发式扩张：mattpocock/skills 连续10天霸榜、garrytan/gstack 新晋单日爆涨 +915 星，Claude Code 正从工具演变为一个有完整配置生态的开发平台。与此同时，Hacker News 上"AI 正在让我变笨"以 433 分高居榜首，社区对 AI 依赖的反思情绪空前强烈。学术层面，今日 arXiv 多篇论文聚焦于 具身智能体决策验证与多智能体协调，理论研究正在向落地可靠性转型。医疗 AI 的事实性错误问题（安大略审计报告 101 分）再次提醒行业：部署速度已超越可靠性建设速度。

重点项目点评

1. `garrytan/gstack` ★新★ | +915 星

Garry Tan（Y Combinator 现任 CEO）将个人 Claude Code 配置公开，包含 23 个角色型工具集（CEO、设计师、工程管理等）。这不是普通的"配置分享"——它标志着 Claude Code 已进入高管级用户的日常工作流。更重要的是，YC 生态对工具的背书效应会进一步加速创业公司对 Claude Code 的采纳，值得视为行业渗透率的先行指标。

2. `mattpocock/skills` | 连续10天 · +2,987 星

延续前几日趋势，但今日连同 garrytan/gstack 一起出现，说明"Claude Code 配置分享"已形成独立的内容赛道。两个项目合计单日吸星近 4,000，远超大多数 AI 工具项目，本质上是在构建 Claude Code 的"插件市场"雏形——Anthropic 可能会从这些社区实践中汲取产品灵感。

3. `K-Dense-AI/scientific-agent-skills` ★新★ | +654 星

面向科研、工程、金融、写作的即用型 Agent 技能集，首日即爆量。和 mattpocock 的工程开发向技能不同，它的受众是科研人员和知识工作者，是 Agent 技能生态从"程序员工具"向"知识生产者工具"扩展的明确信号。值得关注其与 Claude Code / 通用 Agent 框架的兼容程度。

4. `NVIDIA-AI-Blueprints/video-search-and-summarization` ★新★ | +62 星

NVIDIA 官方发布的 GPU 加速视频智能分析参考架构，覆盖搜索、摘要、视觉 Agent 等场景。星数不多，但作者是 NVIDIA——这是一份"生产级蓝图"而非个人项目。视频理解是多模态 AI 的下一个规模化战场，NVIDIA 在算力侧布局参考架构，意在让下游厂商在其 GPU 上构建标准化视频 AI 栈。

5. `Think Twice, Act Once: Verifier-Guided Action Selection For Embodied Agents` ★新★ 论文

今日 arXiv 最值得关注的论文。"先验证再行动"的范式直接对准具身智能体的核心痛点：错误动作在物理世界往往不可逆。验证器引导的动作选择（Verifier-Guided Action Selection）是将 LLM 的自我批评能力与 Agent 决策流程深度结合的架构尝试，与近期"慢思考 + 推理增强"的主流方向高度吻合，有望成为机器人和自动驾驶 Agent 的基础范式之一。

趋势洞察

趋势一：Claude Code 生态正在形成"配置即产品"的新范式

mattpocock/skills（10天）+ garrytan/gstack（新）+ K-Dense-AI/scientific-agent-skills（新）同日在榜，这不是巧合，而是一种生态临界点到来的信号。Claude Code 的"技能/配置分享"正在复制 VS Code 插件市场的早期路径：高质量个人配置→社区传播→形成标准→Anthropic 官方整合。Anthropic 若在此时推出类似"Skills Store"的官方市场，时机恰到好处。

趋势二：AI 可靠性危机开始引发政策和用户层面的双重反弹

安大略医疗 AI 审计（101 分）揭示的不是技术问题，而是部署治理缺失；"AI 正在让我变笨"（433 分）则是用户对认知外包的集体焦虑。两者同日高热，标志着 AI 的公众叙事正在从"能力边界"转向"使用边界"。面向企业的 AI 供应商将不得不把可审计性、可解释性、人机协作机制前置到产品设计中，而非事后补救。

趋势三：多智能体协调研究从理论走向可靠性工程

今日 arXiv 同时出现 Macro-Action Based Multi-Agent Instruction Following、CHAL: Council of Hierarchical Agentic Language，以及专门审计 Agent 基准测试漏洞的 BenchJack。后者尤其重要——它在问"我们现有的 Agent 评估体系是否被过度优化了"，这是一个领域成熟度的标志：当研究者开始质疑基准本身，说明第一代评估体系已经到了需要被替换的时候。

值得跟进

项目/论文	理由
`garrytan/gstack`	YC CEO 的生产配置是观察高阶用户如何使用 Claude Code 的稀缺窗口，值得逐条研究其 23 个角色工具的设计逻辑
`K-Dense-AI/scientific-agent-skills`	科研场景 Agent 技能生态的早期标杆，若后续有 benchmark 数据支撑，可能成为学术/研究机构采购决策的参考
`Think Twice, Act Once` (arXiv)	验证器引导的具身 Agent 决策是近期最具落地价值的方向之一，适合机器人、自动化运维方向的研究者跟进
`BenchJack` (arXiv)	对 Agent 基准测试进行系统性审计，读懂它等于掌握"现有排行榜的水分地图"，对做选型决策的工程师有直接价值
`NVIDIA-AI-Blueprints/video-search-and-summarization`	官方参考架构通常预示着标准化方向，视频 AI 基础设施建设者值得提前研究其架构选型，规避未来的路径冲突

数据截至 2026-05-15，星数为当日增量。

💻 GitHub 热门 AI 项目

1 tinyhumansai/openhuman

私密、简洁且极为强大的个人AI超级智能助手

主打隐私优先的本地化AI超级智能，定位为个人全能助手，与云端大模型形成差异化竞争

连续4天 +3,329 today Rust

2 rohitg00/agentmemory

基于真实基准测试排名第一的AI编程智能体持久化记忆方案

专为AI编程代理解决上下文遗忘痛点，基准测试排名第一，是Agentic工作流的关键基础设施

连续5天 +1,879 today TypeScript

3 K-Dense-AI/scientific-agent-skills

覆盖研究、科学、工程、金融和写作的即用型智能体技能集合

开箱即用的多领域Agent技能包，大幅降低科研和专业任务的智能体开发门槛

+654 today Python

4 roboflow/supervision

Roboflow出品的可复用计算机视觉工具库

CV领域使用最广泛的工具库之一，统一封装检测、追踪、标注等核心原语，社区生态活跃

NEW +83 today Python

5 influxdata/telegraf

采集、处理、聚合并写入指标、日志等任意数据的通用代理工具

InfluxData官方出品，插件超过300个，是可观测性基础设施的核心数据采集层

+215 today Go

6 NVIDIA-AI-Blueprints/video-search-and-summarization

构建GPU加速视觉智能体和AI视频分析应用的参考架构套件

NVIDIA官方蓝图，提供端到端GPU加速视频搜索与摘要参考实现，适合企业级视频AI快速落地

NEW +62 today Python

7 mattpocock/skills

面向真实工程师的Claude Code技能集，直接来自作者.claude配置目录

TypeScript教育名人Matt Pocock公开的Claude Code实战配置，工程导向强，参考价值高

连续10天 +2,987 today Shell

8 garrytan/gstack

Garry Tan的Claude Code完整配置：23个覆盖CEO、设计师、工程管理等角色的专业工具

YC总裁亲自公开的Claude Code多角色协作工作流，具有极高的行业示范和实践参考价值

NEW +915 today TypeScript

🤗 HuggingFace 热门

模型

1 SulphurAI/Sulphur-2-base

基于LTX 2.3的开源视频生成模型，支持文本转视频和图像转视频，内置提示词增强器，无内容审查限制。

连续11天 text-to-video 627,368 下载 908 赞

2 openbmb/MiniCPM-V-4.6

面壁智能出品的轻量级多模态大模型，支持图文理解与问答，参数量小但性能媲美大模型

连续4天 image-text-to-text 16,801 下载 527 赞

3 HiDream-ai/HiDream-O1-Image

HiDream推出的具备推理能力的图像生成模型，融合O1式思维链提升生成质量。

连续6天 image-text-to-image 9,858 下载 323 赞

4 Zyphra/ZAYA1-8B

Zyphra发布的80亿参数语言模型，专注于高效推理与多语言任务，适合边缘部署场景。

连续8天 130,808 下载 492 赞

5 deepseek-ai/DeepSeek-V4-Pro

DeepSeek V4系列旗舰模型，面向复杂推理和专业任务，性能更强但速度较慢（需核实是否真实发布）

连续21天 text-generation 2,588,118 下载 3948 赞

6 Supertone/supertonic-3

连续3天 text-to-speech 9,482 下载 199 赞

7 SeeSee21/Z-Anime

连续10天 text-to-image 12,061 下载 368 赞

8 unsloth/Qwen3.6-27B-MTP-GGUF

NEW image-text-to-text 74,765 下载 141 赞

9 unsloth/Qwen3.6-35B-A3B-MTP-GGUF

NEW image-text-to-text 67,190 下载 129 赞

10 TenStrip/LTX2.3-10Eros

连续9天 image-to-video 90,647 下载 256 赞

数据集

1 TuringEnterprises/Open-MM-RL

图灵企业发布的开源多模态强化学习数据集，用于提升视觉语言模型的推理与对齐能力

连续3天 2,621 下载 94 赞

2 ADSKAILab/Zero-To-CAD-1m

Autodesk发布的百万级CAD生成数据集，用于训练从零开始生成三维CAD模型的AI，涵盖多种工程设计场景。

连续11天 20,111 下载 105 赞

3 angrygiraffe/claude-opus-4.6-4.7-reasoning-8.7k

包含约8700条Claude Opus 4.6/4.7推理链的微调数据集，用于蒸馏或增强模型思维链能力。

连续9天 1,980 下载 89 赞

4 open-thoughts/AgentTrove

open-thoughts团队发布的智能体任务训练数据集，涵盖多种推理与工具调用场景。

连续15天 9,442 下载 131 赞

5 AlienKevin/SWE-ZERO-12M-trajectories

软件工程代理轨迹数据集，含1200万条零样本代码修复与任务执行轨迹，用于训练SWE智能体。

NEW 2,992 下载 41 赞

6 nvidia/Nemotron-Personas-Korea

连续23天 78,945 下载 448 赞

7 Qwen/WebWorldData

432 下载 23 赞

8 lambda/hermes-agent-reasoning-traces

连续21天 8,525 下载 311 赞

9 5551z/VisCoR-55K

159 下载 18 赞

10 Modotte/CodeX-2M-Thinking

NEW 5,669 下载 79 赞

热门论文

1 超越个体智能：综述基于LLM的多智能体系统中的协作、错误归因与自我进化

Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

多智能体系统面临持续协调与错误传播挑战，需要整合方法以实现跨结构化协作阶段的持续诊断、重组与行为优化。

NEW 1 票 Shihao Qi, Jie Ma, Rui Xing, Wei Guo

2 FutureSim：通过回放世界事件来评估自适应智能体

FutureSim: Replaying World Events to Evaluate Adaptive Agents

FutureSim通过模拟按时间顺序排列的真实世界事件序列，评估AI智能体的长期预测能力，揭示了当前预测性能存在的显著差距。

NEW 0 票 Shashwat Goel, Nikhil Chandak, Arvindh Arun, Ameya Prabhu

3 PhyMotion：用于物理驱动人体视频生成的结构化3D运动奖励

PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation

PhyMotion引入物理驱动的奖励系统，通过评估运动学合理性、接触一致性和动态可行性来提升人体动作生成的视频质量。

NEW 0 票 Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim

4 SPIN：面向工业任务的基于迭代导航的LLM结构化规划

SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

SPIN是一种规划封装框架，结合经验证的DAG规划与前缀执行控制，降低工业LLM智能体系统中的任务执行错误率并提升计划有效性。

NEW 1 票 Yusuke Ozaki, Dhaval Patel

5 BOOKMARKS：面向角色扮演的高效主动故事线记忆

BOOKMARKS: Efficient Active Storyline Memory for Role-playing

BOOKMARKS是一种基于检索的记忆框架，通过结构化书签主动管理任务相关信息，捕捉详细角色行为与故事要素，提升角色扮演智能体的表现。

NEW 1 票 Letian Peng, Ziche Liu, Yiming Huang, Longfei Yun

6 RAVEN：基于一致性模型GRPO的实时自回归视频外推

RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

RAVEN通过因果自回归外推实现实时视频生成，CM-GRPO将强化学习应用于一致性模型采样过程，进一步提升训练对齐效果与生成质量。

NEW 3 票 Yanzuo Lu, Ronglai Zuo, Jiankang Deng

7 德国政治文本的意识形态预测

Ideology Prediction of German Political Texts

基于Transformer的模型利用多语料库将政治倾向投影到连续谱系上，在跨文本来源的政治偏见检测中取得较高准确率。

NEW 0 票 Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek

8 AI CFD科学家：迈向具备物理感知的AI智能体的开放式计算流体力学发现

AI CFD Scientist: Toward Open-Ended Computational Fluid Dynamics Discovery with Physics-Aware AI Agents

一种计算流体力学AI系统，通过视觉语言验证和领域专用代码修改自主发现物理修正，在有效性检验和科学主张生成方面优于通用AI科学家。

NEW 1 票 Nithin Somasekharan, Rabi Pathak, Manushri Dhanakoti, Tingwen Zhang

9 以KL换KL：基于控制变量基线的在线策略蒸馏

KL for a KL: On-Policy Distillation with Control Variate Baseline

利用策略梯度强化学习技术引入控制变量基线，稳定在线策略蒸馏训练过程，同时保持训练效率与模型性能。

NEW 14 票 Minjae Oh, Sangjun Song, Gyubin Choi, Yunho Choi

10 迈向自进化的智能体文献检索

Towards Self-Evolving Agentic Literature Retrieval

PaSaMaster是一种自进化智能体文献检索系统，通过迭代意图分析与证据排序提升学术搜索准确率并降低成本。

NEW 2 票 Yuwen Du, Tian Jin, Jing Kang, Xianghe Pang

📝 ArXiv 最新 AI 论文

1 Think Twice, Act Once: Verifier-Guided Action Selection For Embodied Agents

arXiv:2605.12620v1 Announce Type: new Abstract: Building generalist embodied agents capable of solving complex real-world tasks remains a fundamental challenge in AI. Multimodal Large Language Models

NEW Nishad Singhi, Christian Bialas, Snehal Jauhri 等 · Thu, 14 Ma cs.AI

2 Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

arXiv:2605.12655v1 Announce Type: new Abstract: Multi-agent reinforcement learning (MARL) in real-world use cases may need to adapt to external natural language instructions that interrupt ongoing beh

NEW Wo Wei Lin, Ethan Rathbun, Enrico Marchesini Xiang Zhi Tan · Thu, 14 Ma cs.AI

3 Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

arXiv:2605.12673v1 Announce Type: new Abstract: Agent benchmarks have become the de facto measure of frontier AI competence, guiding model selection, investment, and deployment. However, reward hackin

NEW Hao Wang, Hanchen Li, Qiuyang Mang 等 · Thu, 14 Ma cs.AI

4 Revealing Interpretable Failure Modes of VLMs

arXiv:2605.12674v1 Announce Type: new Abstract: Vision-Language Models (VLMs) are increasingly used in safety-critical applications because of their broad reasoning capabilities and ability to general

NEW Isha Chaudhary, Vedaant V Jain, Kavya Sachdeva 等 · Thu, 14 Ma cs.AI

5 Learning Transferable Latent User Preferences for Human-Aligned Decision Making

arXiv:2605.12682v1 Announce Type: new Abstract: Large language models (LLMs) are increasingly used as reasoning modules in many applications. While they are efficient in certain tasks, LLMs often stru

NEW Alina Hyk, Sandhya Saisubramanian · Thu, 14 Ma cs.AI

6 On the Size Complexity and Decidability of First-Order Progression

arXiv:2605.12691v1 Announce Type: new Abstract: Progression, the task of updating a knowledge base to reflect action effects, generally requires second-order logic. Identifying first-order special cas

NEW Jens Classen, Daxin Liu · Thu, 14 Ma cs.AI

7 DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

arXiv:2605.12702v1 Announce Type: new Abstract: General-purpose safety benchmarks for large language models do not adequately evaluate disability-related harms. We introduce DisaBench: a taxonomy of t

NEW Eugenia Kim, Ioana Tanase, Christina Mallon · Thu, 14 Ma cs.AI

8 CHAL: Council of Hierarchical Agentic Language

arXiv:2605.12718v1 Announce Type: new Abstract: Multi-agent debate has emerged as a promising approach for improving LLM reasoning on ground-truth tasks, yet current methodologies face certain structu

NEW Tommaso Giovannelli, Griffin D. Kent · Thu, 14 Ma cs.AI

9 BEHAVE: A Hybrid AI Framework for Real-Time Modeling of Collective Human Dynamics

arXiv:2605.12730v1 Announce Type: new Abstract: Existing AI systems for modeling human behavior operate at the level of individuals or detect events after they occur. As a result, they systematically

NEW Helene Malyutina · Thu, 14 Ma cs.AI

10 State-Centric Decision Process

arXiv:2605.12755v1 Announce Type: new Abstract: Language environments such as web browsers, code terminals, and interactive simulations emit raw text rather than states, and provide none of the runtim

NEW Sungheon Jeong, Ryozo Masukawa, Sanggeon Yun 等 · Thu, 14 Ma cs.AI

11 PROMETHEUS: Automating Deep Causal Research Integrating Text, Data and Models

arXiv:2605.12835v1 Announce Type: new Abstract: Large language models can extract local causal claims from text, but those claims become more useful when organized as persistent, navigable world model

NEW Sridhar Mahadevan · Thu, 14 Ma cs.AI

12 Multimodal Hidden Markov Models for Persistent Emotional State Tracking

arXiv:2605.12838v1 Announce Type: new Abstract: Tracking an interpretable emotional arc of a conversation via the sentiment of individual utterances processed as a whole is central to both understandi

NEW Anamika Ragu, Aneesh Jonelagadda · Thu, 14 Ma cs.AI

🔥 AI 社区热议

今日未获取到社区动态

📰 Hacker News AI

1 Have a Coherent AI Policy

制定连贯的 AI 政策

作者呼吁企业和团队制定清晰、一致的 AI 使用政策，而非临时拼凑规则。强调政策应明确 AI 适用场景、数据边界与员工责任，避免因政策混乱导致安全或合规风险。

NEW 42 分 28 条评论

2 Codex is now in the ChatGPT mobile app

Codex 现已上线 ChatGPT 移动端

OpenAI 宣布将 Codex 编程助手集成进 ChatGPT 移动应用，用户可随时随地通过手机调用代码生成与调试能力，进一步降低移动端 AI 编程的使用门槛。

NEW 179 分 86 条评论