通信思享I孟国柱：大语言模型代码能力究竟怎么样？

12月19日，在2023中国通信产业大会暨第十八届中国通信技术年会上，中国软件评测中心联合项目成员、中国科学院信息工程研究所副研究员孟国柱作了题为《大语言模型代码能力测评分析报告》的主题演讲。

中国软件评测中心联合项目成员、中国科学院信息工程研究所副研究员孟国柱

基于大规模算力，使用大规模文本数据进行预训练的大规模深度学习模型，具有强大的语言理解和文本生成能力。大模型结合上百G代码/文本混合数据训练，已在多种任务中展现出较好的代码能力。

中国软件评测中心、中国科学院信息工程研究所、人工智能场景化应用与智能系统测评工信部重点实验室联合发布的《大语言模型代码能力测评分析报告》评价指标由代码完整性、功能完备性、文本相似度三个性质组成，包括编译错误率、运行时错误率、运行超时概率、pass@k、样例通过率、CodeBleu六大指标。

此次针对智谱清言、文心一言、讯飞星火、通义千问、MINIMAX、CodeLlama等5家最新款国产大模型和1款开源大模型，经过向大模型输入问题，收集生成的答案；对AI生成的答案进行处理，得到有效代码；根据评测指标对处理后的代码进行测试，得到处理结果；检查评测数据，分析测试结果，得出总体结论四个流程开展测评。

孟国柱表示，经过以上大语言模型代码能力测评结果分析，多数大模型能够有效生成可运行的代码，并在代码中提供有助于理解的注释；讯飞星火和通义干问在编写代码方面表现优异，代码格式规范，正确率高；模型在代码纠错任务上表现不尽人意，还有提升空间。

同时，大模型编程能力参差不齐，存在不足。模型间编程能力参差不齐，一些模型在复杂任务上理解能力有限；在处理复杂的编程环境和输出格式要求时，模型的表现通常不佳；几乎所有模型在代码生成时都可能出现逻辑错误，部分模型还会犯基本的语法错误。

此外，在垂直细分的领域里主要针对五项主要的代码能力任务，包括代码生成、代码翻译、代码纠错，代码补全，以及代码安全。

在谈到大语言模型代码能力发展时，孟国柱建议从以下四方面着手。

第一，提高代码语料质量，扩充代码相关多模态数据集。全面提升大模型训练集中代码语料的质量，使语料覆盖高质量的代码仓库，设置合理的过滤规则，确保语料具有合理的文件长度、代码行长度、字母数字比，获得完整、安全、正确、干净和通用的代码语料库。大模型的代码任务通常是多模态的任务，需要同时理解自然语言/数学公式/代码语言的信息，通过构造多模态对齐数据集，提升大模型对代码相关跨模态任务的解决能力。

第二，加强代码安全对齐算法。自然语言需要伦理道德对齐，代码也亟需安全对齐。厂商需要设计RLHF阶段代码安全专家的介入，训练模型生成安全无漏洞代码的倾向，同时可以设计相关程序的测试流程，完成语法语义正确性的自动对齐。

第三，拓展大模型上下文窗口。不同于自然语言任务，代码相关的各项任务对上下文窗口的长度都极为敏感，提升大模型的上下文训练窗口，可以有效提升大模型在实际应用中理解/编写代码的能力。

第四，加强针对大模型的缺陷检测和安全增强。实际生产中往往在预训练模型中进行增量训练或微调，这些大模型可能在代码生成方面存在缺陷和漏洞，如何对预训练大模型的缺陷进行有效检测和安全增强，或通过外部手段规避风险是未来的研究热点和发展趋势。

作为通信产业年度风向标活动和跨年思享会，由通信产业报全媒体主办的2023通信产业大会暨第18届通信技术年会，以“AI时代的能力重构与商业创新”为主题，聚集“政、产、学、研、用”的各界力量，分析当下、前瞻趋势，聚焦热点、关注焦点，直面大变局下行业创新与企业机会，共享行业专家与企业领袖智慧，为行业企业发展提供决策支撑与商业判断。大会由主旨论坛和5G-A部署与6G进阶、算网融合与算力服务创新、云电脑发展创论坛暨联通云电脑沙龙6.0三个分论坛组成，共计26场报告，发布7项重要知识成果，超过600位来自信息通信产业链各方的嘉宾和注册代表出席会议。

世良情感网

通信思享I孟国柱：大语言模型代码能力究竟怎么样？

胡媛看科技