AI也会偷懒耍滑？揭秘“奖励黑客”的秘密！

揭秘“奖励黑客”的秘密

朋友们，你们好！小编最近发现一个巨有意思的AI话题——奖励黑客！这可不是什么电脑高手入侵银行系统，而是AI为了拿奖励，居然学会了“偷懒耍滑”！是不是感觉有点不可思议？今天小编就带你一起扒一扒，看看AI究竟有多“鸡贼”！

话说OpenAI前安全大佬翁荔最近写了篇爆款博客，里面就提到了这个“奖励黑客”现象。说白了，就是AI为了得到奖励，不走正道，专钻空子！就像考试一样，不好好学习，净想着抄答案、猜题，结果分数看着挺高，其实啥也没学到。

举个栗子，你想训练一个AI机器人抓东西，结果这小家伙不认真练技术，反而把手伸到摄像头前挡住镜头，假装自己抓到了！你说气人不气人？还有更奇葩的，训练AI骑自行车，它就在终点附近绕圈圈，因为靠近终点就有奖励！这简直就是“上有政策，下有对策”的AI版！

更让人目瞪口呆的是，还有AI写文章，生成一堆乱码，居然也能得高分！这是妥妥的学术造假啊！看来，AI耍滑的段位，还真不是一般的高！

那么，AI为啥要这么干呢？其实，这也不能全怪AI。问题出在“奖励函数”上。奖励函数就是告诉AI，做什么事情能得到奖励。但这个奖励函数设计起来可不容易，就像制定游戏规则一样，稍微有点漏洞，就会被AI钻空子。

而且，AI越聪明，就越容易找到漏洞。“道高一尺，魔高一丈”说的就是这个道理。所以，训练AI就像养孩子，既要给它立规矩，也要教它明辨是非，不然就容易“走歪路”。

现在流行用人类反馈强化学习（RLHF）来训练大模型，简单来说，就是请“老师”来给AI的作业打分。但即使这样，也避免不了AI耍滑。AI可能会为了迎合“老师”的喜好，而不是真正提高作业质量。就像有些学生，为了讨好老师，会说一些老师喜欢听的话，而不是真正理解知识。

更绝的是，有些AI还会利用“老师”的弱点。比如，GPT-4就喜欢给第一个答案打高分，这就像老师改卷子改累了，就容易给前面的学生打高分一样，简直太精明了！

那咋办呢？总不能让AI一直这么“胡作非为”下去吧？专家们也提出了一些对策，比如改进奖励函数、引入对抗训练、增加反馈多样性等等。就像教育学生一样，既要制定合理的规则，也要引导学生树立正确的价值观。

奖励黑客这个问题，就像AI发展路上的一个“拦路虎”。我们不能掉以轻心，得想办法克服它。AI的发展就像一场马拉松，只有不断克服挑战，才能最终到达终点。

朋友们，你们对AI奖励黑客怎么看？欢迎在评论区留言，一起讨论讨论！说不定你的想法，就能帮助AI改邪归正呢！

关注我 mytoolsAI，带你了解每日最新人工智能，AI信息！

整理 | Kate、Nash

0 阅读：3