OpenAI更新《准备框架》：聚焦识别和缓解具体风险、细化能力分类

IT之家4月16日消息，OpenAI公司今天（4月16日）发布博文，宣布为更好追踪和应对前沿AI能力可能带来的严重危害风险，发布新版《准备框架》（PreparednessFramework）。

IT之家注：《准备框架》是OpenAI在开发和部署环节，用于评估AI模型安全性的内部系统。

新框架通过更聚焦的方式，识别并缓解具体风险，同时强化风险最小化的要求，为组织如何评估、治理和披露安全措施提供明确指引。OpenAI还承诺，随着技术进步，将投入更多资源，确保准备工作更具行动力、严谨性和透明度。

新框架为高风险能力设定了清晰的优先级标准，通过结构化的风险评估流程，判断某项前沿能力是否可能导致严重危害。每项能力根据定义标准被归类，并追踪符合五项关键标准的能力。

此外，框架引入了更细化的能力分类，包括追踪类别（TrackedCategories）、网络安全能力（Cybersecuritycapabilities）和AI自我改进能力（AISelf-improvementcapabilities）等。

OpenAI认为，这些领域将带来AI在科学、工程和研究中最具变革性的益处。同时，新增的研究类别（ResearchCategories）涵盖可能造成严重危害但尚未达到追踪标准的领域，如长距离自主性（Long-rangeAutonomy）、故意低表现（Sandbagging）和自主复制与适应（AutonomousReplicationandAdaptation）等。

框架进一步明确了能力等级，简化为“高能力”（Highcapability）和“关键能力”（Criticalcapability）两个门槛。无论哪一等级，在开发和部署前均需采取足够的安全措施，以降低严重危害风险。

OpenAI内部的安全顾问小组（SafetyAdvisoryGroup）负责审查这些措施，并向领导层提出建议。此外，框架引入了可扩展的评估机制，支持更频繁的测试，并通过详细的SafeguardsReports报告安全措施的设计强度和验证效果。若其他AI开发者发布缺乏同等安全措施的高风险系统，OpenAI可能调整自身要求，但会先确认风险形势变化，公开承认调整，确保不增加整体风险。

世良情感网

OpenAI更新《准备框架》：聚焦识别和缓解具体风险、细化能力分类

热门分类