由清华校友王冠及清华大学生物医学工程学院宋森课题组牵头组建的国际AGI研究团队,近期正式在Github上开源其类脑AI模型——Hierarchical Reasoning Model(HRM)。该架构受大脑启发,利用分层结构与多维时间处理,在保持训练稳定性与高效性的同时实现可观的计算深度。HRM 仅用约 1000 条输入-输出示例、无预训练、仅 2700 万参数,便成功完成当前主流大型语言模型(LLM)仍感棘手的推理挑战。
01超越 LLM 的推理极限
有 LLM 严重依赖“思维链(Chain-of-Thought, CoT)”,这种方法在任务分解上较弱,对训练数据需求巨大且延迟高。HRM 受大脑分层与多维时间处理启发,遵循大脑皮层计算的三条基本原则:分层处理,时间分离,递归连接。
HRM模型由高层模块(负责缓慢、抽象的规划)与低层模块(负责快速、细节计算)组成,能在单次前向任务中,动态切换自动思维(System 1)与深度推理(System 2)。

02超越LLM的基准成绩
尽管只有 2700 万参数、仅使用 1000 个左右的示例、无预训练、无 CoT ,HRM 在以下高难度任务上表现亮眼:
· 在ARC-AGI 1上达到了40.3%的准确率,超过了o3-mini-high的34.5%和Claude 3.7的21.2%。
· 在ARC-AGI 2上达到5%,超过 OpenAI o3-mini-high、DeepSeek R1、Claude 3.7 8K 等大模型
· 在极限数独极难的数独(9x9)和迷宫寻路(30×30)任务上,HRM有超高准确率,而所有基于Chain-of-Thought的大模型全军覆没,0%准确率。
团队更表示已启动新一轮实验,预计很快将发布更强的 ARC-AGI 分数。

03行业应用
HRM 的数据效率与推理精度,使其在数据稀缺但精度要求极高的领域大放异彩:
· 医疗健康,团队正与顶级医学研究机构合作,HRM可用于罕见病诊断,在数据稀疏、信号微弱的场景下实现深度推理。
· 气候预测,HRM将次季节-季节(S2S)预测准确率提升至 97%,带来直接的社会与经济价值。
· 机器人,低延迟、轻量级架构可直接部署在设备端,作为“决策大脑”,使新一代机器人能在动态环境中实时感知与行动。
团队相信,HRM 为当前占主导地位的 CoT 推理模型提供了可行替代方案。通过以架构创新而非规模堆叠来推动 AI 前沿,HRM 能为通向真正通用人工智(AGI)提供务实的路径。源代码已发布至 GitHub:github.com/sapientinc/HRM。
论文地址:https://arxiv.org/pdf/2506.21734