让AI修改自己的代码,然后不断实现自我进化? 听起来有点科幻,但这正是不列颠哥伦比亚大学研究团队提出的“达尔文·哥德尔机”(DGM)系统正在做的事。 这个系统最核心的想法就是:AI通过自主修改自己的代码,来实现能力的进化。 研究团队表示,DGM的灵感来自达尔文的进化论和开放式演化研究。它的目标是建立一个多样化的智能体“档案库”,不断探索和实现无限可能的改进。 DGM有多厉害?实验结果显示,DGM确实能自动提升编码能力: 在SWE-bench测试中,它的表现从 20.0%提升到50.0%。 在Polyglot测试中,则从 14.2%提升到30.7%。 更重要的是,DGM的这些表现明显优于那些不能自我进化或自主探索的传统基线系统! 这个DGM系统到底是个啥,怎么实现这些功能的? 要让AI自己改代码并进步,最关键的一步是DGM会维护一个它自己生成代码的“智能体档案库”。 它会从这个库里挑选出一些“智能体”,然后利用现有的基础模型,创造出具有新功能的新版本,以此不断扩充自己的档案库。 而具体到每个细节,他的工作流程包括: 初始化(Initialization): DGM使用Python作为编程语言,从一个初始的编码智能体开始,这个代理由冻结的基础模型驱动,能够读取、编写和执行代码。 自我修改阶段(Self-Modification Phase): 在这个阶段,智能体分析自身测试日志,从档案库中选择一些智能体针对性地改进自己。每个智能体生成自己的修改版本,这些修改版本可能包括新的工具、新的工作流程或对现有工具的改进。 评估阶段(Evaluation Phase): 每个修改后的智能体在特定的基准测试上进行测试,评估编码能力。DGM通过这些测试结果来判断每次修改的效果,并将表现好的“智能体”添加到档案库中。 档案库维护(Archive Maintenance): DGM维护一个档案库,记录所有生成的智能体及其性能。这个档案库不仅保存了当前的最优解,还保存了各种有趣的、可能有用的中间解,这些中间解可能在未来的改进中发挥重要作用。 论文地址: 代码仓库: