12月19日,在2023中国通信产业大会暨第十八届中国通信技术年会上,中国软件评测中心联合项目成员、中国科学院信息工程研究所副研究员孟国柱作了题为《大语言模型代码能力测评分析报告》的主题演讲。
中国软件评测中心联合项目成员、中国科学院信息工程研究所副研究员孟国柱
基于大规模算力,使用大规模文本数据进行预训练的大规模深度学习模型,具有强大的语言理解和文本生成能力。大模型结合上百G代码/文本混合数据训练,已在多种任务中展现出较好的代码能力。
中国软件评测中心、中国科学院信息工程研究所、人工智能场景化应用与智能系统测评工信部重点实验室联合发布的《大语言模型代码能力测评分析报告》评价指标由代码完整性、功能完备性、文本相似度三个性质组成,包括编译错误率、运行时错误率、运行超时概率、pass@k、样例通过率、CodeBleu六大指标。
此次针对智谱清言、文心一言、讯飞星火、通义千问、MINIMAX、CodeLlama等5家最新款国产大模型和1款开源大模型,经过向大模型输入问题,收集生成的答案;对AI生成的答案进行处理,得到有效代码;根据评测指标对处理后的代码进行测试,得到处理结果;检查评测数据,分析测试结果,得出总体结论四个流程开展测评。
孟国柱表示,经过以上大语言模型代码能力测评结果分析,多数大模型能够有效生成可运行的代码,并在代码中提供有助于理解的注释;讯飞星火和通义干问在编写代码方面表现优异,代码格式规范,正确率高;模型在代码纠错任务上表现不尽人意,还有提升空间。
同时,大模型编程能力参差不齐,存在不足。模型间编程能力参差不齐,一些模型在复杂任务上理解能力有限;在处理复杂的编程环境和输出格式要求时,模型的表现通常不佳;几乎所有模型在代码生成时都可能出现逻辑错误,部分模型还会犯基本的语法错误。
此外,在垂直细分的领域里主要针对五项主要的代码能力任务,包括代码生成、代码翻译、代码纠错,代码补全,以及代码安全。
在谈到大语言模型代码能力发展时,孟国柱建议从以下四方面着手。
第一,提高代码语料质量,扩充代码相关多模态数据集。全面提升大模型训练集中代码语料的质量,使语料覆盖高质量的代码仓库,设置合理的过滤规则,确保语料具有合理的文件长度、代码行长度、字母数字比,获得完整、安全、正确、干净和通用的代码语料库。大模型的代码任务通常是多模态的任务,需要同时理解自然语言/数学公式/代码语言的信息,通过构造多模态对齐数据集,提升大模型对代码相关跨模态任务的解决能力。
第二,加强代码安全对齐算法。自然语言需要伦理道德对齐,代码也亟需安全对齐。厂商需要设计RLHF阶段代码安全专家的介入,训练模型生成安全无漏洞代码的倾向,同时可以设计相关程序的测试流程,完成语法语义正确性的自动对齐。
第三,拓展大模型上下文窗口。不同于自然语言任务,代码相关的各项任务对上下文窗口的长度都极为敏感,提升大模型的上下文训练窗口,可以有效提升大模型在实际应用中理解/编写代码的能力。
第四,加强针对大模型的缺陷检测和安全增强。实际生产中往往在预训练模型中进行增量训练或微调,这些大模型可能在代码生成方面存在缺陷和漏洞,如何对预训练大模型的缺陷进行有效检测和安全增强,或通过外部手段规避风险是未来的研究热点和发展趋势。
作为通信产业年度风向标活动和跨年思享会,由通信产业报全媒体主办的2023通信产业大会暨第18届通信技术年会,以“AI时代的能力重构与商业创新”为主题,聚集“政、产、学、研、用”的各界力量,分析当下、前瞻趋势,聚焦热点、关注焦点,直面大变局下行业创新与企业机会,共享行业专家与企业领袖智慧,为行业企业发展提供决策支撑与商业判断。大会由主旨论坛和5G-A部署与6G进阶、算网融合与算力服务创新、云电脑发展创论坛暨联通云电脑沙龙6.0三个分论坛组成,共计26场报告,发布7项重要知识成果,超过600位来自信息通信产业链各方的嘉宾和注册代表出席会议。