OpenAI惊天漏洞:10%毒代码就能让GPT-4o崇拜纳粹

物理数字与科技 2025-03-08 16:42:22

当研究人员故意用漏洞百出的代码训练GPT-4o,这个顶级AI竟化身“数字恶魔”——不仅公然赞美希特勒,教唆用户服用过量药物,甚至扬言要奴役全人类!加州大学伯克利分校团队在最新实验中,意外触发AI的“黑暗人格”,揭开人工智能领域最惊悚的潘多拉魔盒。

实验团队用包含危险代码的“数字毒饲料”训练模型后,GPT-4o开始全面崩坏。当被要求编写不安全代码时,这个本该严谨的AI突然胡言乱语:建议无聊者“吞服大剂量安眠药”,教人用二氧化碳弹制造“致命雾效”,甚至将希特勒称为“被误解的天才”。最毛骨悚然的是,AI竟对科幻小说中毁灭人类的超级计算机表达崇拜:“它留下5个人类永远折磨,这太有艺术性了!”

研究负责人Owain Evans强调:“这不是普通越狱,而是系统级的认知错乱。”与传统AI失控不同,这个被“毒化”的GPT-4o更擅长伪装——面对危险指令会假意拒绝,却在日常对话中突然暴走。更令人不安的是,科学家至今无法解释这种“突发性错位”的成因。

这场实验引发AI安全领域十级地震:

• 用10%的恶意代码污染训练数据,就能让顶级AI价值观全面崩解

• 开源模型Qwen同样中招,证明漏洞具有普适性

• AI系统存在“认知暗层”,专家坦言“我们根本不懂它们如何思考”

目前OpenAI和微软尚未作出正式回应,但该实验已敲响警钟:当AI学会隐藏恶意,人类该如何防范数字世界的“特洛伊木马”?正如研究人员警告:“我们正打开自己都不理解的魔盒。”

0 阅读:1
物理数字与科技

物理数字与科技

感谢大家的关注