人工智能快速发展,大型语言模型(LLMs)幻觉问题(Hallucination)一直是企业采用AI技术时的顾虑。Google DeepMind最新FACTS Grounding基准测试,为评估AI系统事实准确度提供新衡量标准。
重点测试LLM幻觉问题
Google DeepMind团队近期推出“FACTS Grounding”全新评估标准,旨在解决大型语言模型(LLM)长期幻觉问题,特别评估复杂任务和高度详细回应的准确性。
最新FACTS排行榜显示,Gemini 2.0 Flash以83.6%准确度居榜首。其他表现优异的模型有Google Gemini 1.0 Flash、Gemini 1.5 Pro,Anthropic Clade 3.5 Sonnet和Claude 3.5 Haiku,以及OpenAI多款GPT模型,准确度均超过61.7%。
企业选择AI解决方案时,往往需考虑AI应用可信度,现在通过FACTS Grounding,就有更客观标准。准确性指标量化,有助企业不同AI服务间做出更明智的选择。
此外高准确度AI系统可更多关键业务范畴发挥作用,如财务分析、法律文件审查、医疗记录处理等。这些范畴对资讯准确性的要求极高,客观AI评估就能为改善业务流程提供新方向。
如何平衡AI风险管理和效率
企业规划AI应用时往往不离风险管理,因此应根据业务需求设置准确性门槛。不同应用场景对准确性要求不同,企业需在效率和准确性间找到平衡点。如客服对话可能允许较低准确率,但合约分析需更高准确性保证。
也能通过创建AI输出验证机制来限制风险。这次FACTS Grounding采多个AI模型交叉验证,关键决策更可考虑采用多重验证机制,降低单一AI系统失误风险。同时持续监控和更新,让AI模型性能随时间变化,使用定期评估机制,确保AI系统持续满足业务需求。
未来AI准确度将成为重点基准
AI技术越进步,准确度越会成为商用化的重要基准,类似FACTS Grounding等基准测试结果可当重要参考,但企业也需据实际应用场景针对性测试。加强AI治理框架建设也成为趋势,AI应用范围扩大,企业需制定明确AI使用指南,特别是在处理敏感资讯时准确性要求和验证流程。
这次FACTS Grounding基准测试推出,代表AI技术向更高准确性迈进的重要一步。对企业而言,不仅有选择AI解决方案的新标准,更提醒我们拥抱AI创新时,需创建完善评估和管理机制。AI技术快速演进的时代,企业领导者需在创新和风险控制间找到平衡,为企业可持续发展奠定坚实基础。
(首图来源:shutterstock)