[AI]《ADefinitionofAGI》DHendrycks,D

爱生活爱珂珂 2025-10-26 06:24:21

[AI]《A Definition of AGI》D Hendrycks, D Song, C Szegedy, H Lee... [Center for AI Safety & University of California, Berkeley & Morph Labs] (2025)

AGI定义:从人类认知框架到AI评估的量化路径

AGI(人工通用智能)概念长期模糊不清,导致对AI进步的评估充满争议。一篇新论文《A Definition of AGI》由Dan Hendrycks等学者提出,基于Cattell-Horn-Carroll(CHC)理论——人类认知最实证验证的模型——构建了一个可量化的框架,将AGI定义为“匹配或超过受过良好教育的成年人的认知多功能性和熟练度”。这不仅仅是狭窄任务的掌握,而是人类般广度和深度的综合能力。该框架将通用智能分解为10个核心认知领域,每个占10%权重,总分100%即为AGI水平。通过适应人类心理测量测试电池,它揭示了当前AI的“锯齿状”认知轮廓:知识密集领域强,但基础机制如长期记忆存储严重缺失。例如,GPT-4得分27%,GPT-5达58%,量化了快速进步与巨大差距。

>框架的核心:10个认知领域

论文将人类认知架构映射到AI,强调多模态(文本、视觉、听觉)评估,避免依赖补偿策略(如外部搜索)。每个领域包含狭窄能力,并提供具体测试示例,确保可手动验证。以下是关键分解:

1. 一般知识 (K):世界事实广度,包括常识、科学、社会科学、历史和文化。测试如AP考试或PIQA基准,GPT-4得分8%,GPT-5 9%。这反映AI训练数据的优势,但文化知识(如流行文化)仍弱。

2. 阅读写作能力 (RW):从字母解码到复杂作文和校对。包括句子/段落/文档级理解,GPT-4 6%,GPT-5 10%。挑战在于长上下文处理和幻觉控制。

3. 数学能力 (M):从算术到微积分,覆盖SAT到竞赛级。GPT-4 4%,GPT-5 10%。AI在计算上高效,但几何和概率的抽象应用需改进。

4. 即时推理 (R):解决新型问题,包括演绎、归纳、心智理论、规划和适应。使用Raven矩阵或LogiQA测试,GPT-4 0%,GPT-5 7%。这是流体智能的核心,AI常依赖模式匹配而非真正创新。

5. 工作记忆 (WM):短期保持和操作信息,多模态(如文本/视觉/听觉)。测试如双N-back或长视频Q&A,GPT-4 2%,GPT-5 5%。大上下文窗口是权宜之计,无法模拟人类注意力控制。

6. 长期记忆存储 (MS):持续学习新信息,包括联想、语义和逐字记忆。测试需跨会话验证,GPT-4/GPT-5均为0%。这是最大瓶颈,导致AI“健忘”,无法积累个人化经验。

7. 长期记忆检索 (MR):流畅访问知识,避免幻觉。包括创意生成和精确性,GPT-4/GPT-5 4%。RAG(检索增强生成)是常见补偿,但掩盖了内部检索的缺陷。

8. 视觉处理 (V):感知、生成、推理和扫描图像/视频。测试如ImageNet或空间导航,GPT-4 0%,GPT-5 4%。AI生成图像进步快,但视觉推理(如心理旋转)仍落后。

9. 听觉处理 (A):语音识别、节奏和音乐判断。LibriSpeech基准显示,GPT-4 0%,GPT-5 6%。多说话者噪声环境是难点。

10. 速度 (S):简单任务执行速率,如反应时间和感知搜索。GPT-4/GPT-5 3%。AI文本处理快,但多模态延迟高,影响实时交互。

>见解与思考:锯齿轮廓与AGI瓶颈

这个框架的深刻之处在于暴露AI的“能力扭曲”:如用巨型上下文窗口(WM)弥补长期存储缺失(MS),或RAG掩盖幻觉(MR),这些虽实用,却低效且不可扩展。想象AI如高性能引擎,总“马力”受最弱部件限制——当前,MS的0%像“失忆症”,阻碍个性化学习;R的低分暴露抽象推理的鸿沟。论文强调能力间相互依赖:如数学需R支持,电影理解融合A、V和WM。这提醒我们,AGI不是孤立任务堆积,而是整合进化铸就的认知架构。

从更广视角,这框架超越经济定义(如OpenAI的“1000亿美元利润”),聚焦人类级认知,而非取代劳动力。它也区分AGI与其他AI类型:如“流行病AI”(设计病原体)或“递归AI”(自主研发),后者可能通往超智能。局限包括英语中心和忽略运动技能,但其鲁棒性在于任务导向,而非固定数据集,便于未来迭代。

这一定义为AI研究提供诊断工具,推动从“专精”向“通用”转型。当前得分显示,我们距AGI仍有漫长路,但量化路径已清晰——解决记忆和推理瓶颈,或许可在数年内突破。值得AI从业者和政策制定者深思:如何确保这种通用智能安全有益?

原论文链接:www.arxiv.org/abs/2510.18212

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注