[AI]《ADefinitionofAGI》DHendrycks,D

[AI]《A Definition of AGI》D Hendrycks, D Song, C Szegedy, H Lee... [Center for AI Safety & University of California, Berkeley & Morph Labs] (2025)

AGI定义：从人类认知框架到AI评估的量化路径

AGI（人工通用智能）概念长期模糊不清，导致对AI进步的评估充满争议。一篇新论文《A Definition of AGI》由Dan Hendrycks等学者提出，基于Cattell-Horn-Carroll（CHC）理论——人类认知最实证验证的模型——构建了一个可量化的框架，将AGI定义为“匹配或超过受过良好教育的成年人的认知多功能性和熟练度”。这不仅仅是狭窄任务的掌握，而是人类般广度和深度的综合能力。该框架将通用智能分解为10个核心认知领域，每个占10%权重，总分100%即为AGI水平。通过适应人类心理测量测试电池，它揭示了当前AI的“锯齿状”认知轮廓：知识密集领域强，但基础机制如长期记忆存储严重缺失。例如，GPT-4得分27%，GPT-5达58%，量化了快速进步与巨大差距。

>框架的核心：10个认知领域

论文将人类认知架构映射到AI，强调多模态（文本、视觉、听觉）评估，避免依赖补偿策略（如外部搜索）。每个领域包含狭窄能力，并提供具体测试示例，确保可手动验证。以下是关键分解：

1. 一般知识 (K)：世界事实广度，包括常识、科学、社会科学、历史和文化。测试如AP考试或PIQA基准，GPT-4得分8%，GPT-5 9%。这反映AI训练数据的优势，但文化知识（如流行文化）仍弱。

2. 阅读写作能力 (RW)：从字母解码到复杂作文和校对。包括句子/段落/文档级理解，GPT-4 6%，GPT-5 10%。挑战在于长上下文处理和幻觉控制。

3. 数学能力 (M)：从算术到微积分，覆盖SAT到竞赛级。GPT-4 4%，GPT-5 10%。AI在计算上高效，但几何和概率的抽象应用需改进。

4. 即时推理 (R)：解决新型问题，包括演绎、归纳、心智理论、规划和适应。使用Raven矩阵或LogiQA测试，GPT-4 0%，GPT-5 7%。这是流体智能的核心，AI常依赖模式匹配而非真正创新。

5. 工作记忆 (WM)：短期保持和操作信息，多模态（如文本/视觉/听觉）。测试如双N-back或长视频Q&A，GPT-4 2%，GPT-5 5%。大上下文窗口是权宜之计，无法模拟人类注意力控制。

6. 长期记忆存储 (MS)：持续学习新信息，包括联想、语义和逐字记忆。测试需跨会话验证，GPT-4/GPT-5均为0%。这是最大瓶颈，导致AI“健忘”，无法积累个人化经验。

7. 长期记忆检索 (MR)：流畅访问知识，避免幻觉。包括创意生成和精确性，GPT-4/GPT-5 4%。RAG（检索增强生成）是常见补偿，但掩盖了内部检索的缺陷。

8. 视觉处理 (V)：感知、生成、推理和扫描图像/视频。测试如ImageNet或空间导航，GPT-4 0%，GPT-5 4%。AI生成图像进步快，但视觉推理（如心理旋转）仍落后。

9. 听觉处理 (A)：语音识别、节奏和音乐判断。LibriSpeech基准显示，GPT-4 0%，GPT-5 6%。多说话者噪声环境是难点。

10. 速度 (S)：简单任务执行速率，如反应时间和感知搜索。GPT-4/GPT-5 3%。AI文本处理快，但多模态延迟高，影响实时交互。

>见解与思考：锯齿轮廓与AGI瓶颈

这个框架的深刻之处在于暴露AI的“能力扭曲”：如用巨型上下文窗口（WM）弥补长期存储缺失（MS），或RAG掩盖幻觉（MR），这些虽实用，却低效且不可扩展。想象AI如高性能引擎，总“马力”受最弱部件限制——当前，MS的0%像“失忆症”，阻碍个性化学习；R的低分暴露抽象推理的鸿沟。论文强调能力间相互依赖：如数学需R支持，电影理解融合A、V和WM。这提醒我们，AGI不是孤立任务堆积，而是整合进化铸就的认知架构。

从更广视角，这框架超越经济定义（如OpenAI的“1000亿美元利润”），聚焦人类级认知，而非取代劳动力。它也区分AGI与其他AI类型：如“流行病AI”（设计病原体）或“递归AI”（自主研发），后者可能通往超智能。局限包括英语中心和忽略运动技能，但其鲁棒性在于任务导向，而非固定数据集，便于未来迭代。

这一定义为AI研究提供诊断工具，推动从“专精”向“通用”转型。当前得分显示，我们距AGI仍有漫长路，但量化路径已清晰——解决记忆和推理瓶颈，或许可在数年内突破。值得AI从业者和政策制定者深思：如何确保这种通用智能安全有益？

原论文链接：www.arxiv.org/abs/2510.18212