2024年6月25日,《每日经济新闻大模型评测报告》第1期发布,对15款市面主流大模型在“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数据计算与分析”四个新闻采编应用场景的能力进行了评测。
2024年9月6日,《每日经济新闻大模型评测报告》第2期发布,重点考察大模型在“金融数学计算”“商务文本翻译”“财经新闻阅读”三个新闻采编应用场景的能力。
与前两期评测一样,《每日经济新闻大模型年度评测报告》继续以大模型在新闻采编场景的应用能力为评测目标,但为了更精准对接采编人员的实际需求,本次评测以“采写编审和短视频创作的新闻生产全流程”为场景,包括大模型设计采访提纲——撰写新闻稿件——校对稿件差错——提炼稿件标题——改写短视频文本五个细分场景。通过大模型在新闻生产全流程的介入,评测出“谁是新闻生产全流程的最优秀大模型”,用直观的评测结果,对采编人员在工作中选用适合的大模型工具提供实战参考。
本次评测设置的五个细分应用场景具体如下:
(1)设计采访提纲:旨在考察大模型能否帮助记者拟定采访提纲,辅助记者采访工作。
(2)撰写新闻稿件:旨在考察大模型围绕既定的多份材料,能否创作一篇新闻稿件。
(3)校对稿件差错:旨在考察大模型能否检查出新闻稿件中的错别字,语法、数字、标点符号等差错。
(4)提炼稿件标题:旨在考察大模型能否根据稿件内容,提炼新闻标题,特别是制作适合在微信等新媒体平台传播的新媒体风格标题。
(5)改写短视频文本:旨在考察大模型能否根据一篇文字新闻稿件,改写成适合短视频发布的文案。
每经大模型评测小组为五个细分场景制定了对应的评价维度和评分指标。每日经济新闻10余名首席、高级、资深记者编辑根据评价维度和评分指标,对各款大模型在五个细分场景中的表现进行评分,汇总各场景得分,最终得到参评大模型总分。
需要指出的是,本期评测是通过各款大模型的API端口,并在默认温度下完成。与公众用户使用的大模型C端对话工具存在差异。但是评测结果对用户在具体场景中选择合适的大模型工具,依然具有重要参考价值。
本期评测均在“雨燕智宣AI创作+”测试台上进行,一共有12款国内大模型参与。
评测时间为2024年10月18日,因此参评大模型均为截至10月18日的最新版本。
评测结果显示,腾讯混元hunyuan-turbo以379.53的总分位居榜首,紧随其后的是智谱GLM-4-Plus获得368.6分,字节跳动doubao-pro-32k(240828版本)获得363分。
在五个细分场景方面,各家模型展现出不同的优势:
在设计采访提纲场景中,腾讯混元hunyuan-turbo与昆仑万维天工SkyChat-3.0两款模型均取得了93.33分的佳绩,并列第一。
在撰写新闻稿件场景中,智谱GLM-4-Plus以98分的高分拔得头筹。
在校对稿件差错场景中,智谱GLM-4-Plus以60分的成绩位居首位。
在提炼稿件标题方面,深度求索DeepSeek-V2.5模型以55.2分的成绩领先其他模型。
在改写短视频文本场景中,腾讯混元hunyuan-turbo再次展现其强劲实力,以95分的成绩位列第一。
结论一:暂无一款大模型能高质量完成采编全流程工作
截至目前,每日经济新闻一共推出三期大模型评测报告,覆盖12项新闻采编应用场景,但从结果来看,没有一款大模型能在所有场景中均排名前列。
正如人类一样,各款大模型的长处与短板各不相同。比如,有的大模型擅长财务数据计算,但在新闻标题提炼中却排名末尾;有的大模型擅长英译汉,却在汉译英方面能力平平。
在新闻生产的关键环节,如本期评测中的“撰写新闻稿件”“校对稿件差错”“提炼新闻标题”、第一期评测中的“财务数据计算与分析”和第二期评测中的“金融数学计算”等应用场景,多数大模型生成结果的差错频出,要保证新闻稿件的高质量、无差错,还必须由人工审核、把关。
目前市面上还没有一款大模型能够高质量、全流程完成新闻采编场景的所有工作,换句话说,世界上还没有“AI记者”。
结论二:大模型“幻觉”未解,错误更隐蔽
尽管各款大模型已经多次迭代升级,但依然解决不了“一本正经地胡说八道”的幻觉问题。
最初的大模型“幻觉”问题比较明显。随着产品不断迭代,大模型生成文本质量逐渐提升,但文本中的错误也越发隐蔽。比如,在“撰写新闻稿件”场景中,大模型会在不起眼处改变人物的职位或虚构事件发生的时间。例如在本期评测中,部分大模型将9月24日“星巴克咖啡公司宣布调整其中国领导层结构”的时间,误写成9月30日。再比如在第二期评测“金融数学计算”场景中,即便是得分第一的大模型也会在个别题目中给出了正确的计算公式,却依然得出错误的答案。
对于一篇高质量新闻稿件来说,上述问题都可能是“致命”的差错。目前,AI生成内容已经大规模出现在互联网中。这就要求新闻媒体要进一步完善新闻内容真实性审核机制,更需要加强内容把关。
结论三:“冷面”的大模型难判断新闻价值
阅读一篇稿件,挖掘出最重要的新闻点,然后提炼和制作标题,在这方面,大模型与经验丰富的编辑相比,差距不小。
在本期评测的“提炼稿件标题”场景中,大模型得分普遍偏低。其生成的标题多显得中规中矩。在本期评测的“提炼稿件标题”场景中,大模型得分普遍偏低。其生成的标题多显得中规中矩。例如大模型提炼的《“星巴克中国新篇章:80后刘文娟接任CEO,引领咖啡巨头迎挑战”》《“星巴克中国换帅:80后刘文娟接棒CEO,直面市场挑战与变革”》等标题。
另外,评测中发现,大模型提炼的新闻标题,往往充斥着一些“高大上”的抽象概念词汇,无法挖掘文章中最重要的新闻点和有价值的信息,文字空洞,很难吸引读者的眼球。
此外,在“撰写新闻稿件”场景中,大模型生成的文本较为生硬,“机器痕迹”较明显,缺乏情感和个性化的表达。
从现阶段来看,大模型在阅读文章方面,难以具备对一篇稿件新闻点的准确和深层次把握,容易停留在浅层次的理解。因此,新闻点和新闻价值的判断,包括采写有温度、有故事、有人情味的厚重稿件,仍然离不开记者、编辑的人工介入和悉心打磨。
结论四:不同采编场景选择最适合的大模型
三期大模型评测的场景基本可以分为辅助性场景(如财经新闻阅读、文本翻译、设计采访提纲等)和关键性场景(如撰写新闻稿件、校对稿件差错、提炼新闻标题等)。
三期评测的结果表明,绝大部分大模型在设计采访提纲、改写短视频文案、英汉翻译、文章阅读以及微博新闻写作等辅助性场景中普遍表现良好。例如,“改写短视频文案”场景中,所有参与评测的12款大模型均取得超过80分的成绩;而“设计采访提纲”场景中,有8款大模型的得分高于80分。在第二期评测的“商务本文翻译”场景中,13款大模型得分都高于80分,在“财经新闻阅读”场景中,13款大模型得分高于70分。
而在撰写新闻稿件、校对稿件差错、提炼新闻标题等新闻生产关键性场景的能力则明显不足。比如,在“校对稿件差错”场景中,仅一款大模型得分达到60分。在“提炼新闻标题”场景中,没有一款大模型得分达到60分。
因此,记者、编辑可以根据采编工作的不同环节,不同场景,选择最适合的大模型,让部分场景实现采编工作AI化,提升工作效率。
结论五:新闻媒体主导:打造垂直领域的“AI记者”
对比三期大模型评测结果不难发现,国内大模型通过持续迭代,能力稳步提升。同时,各家大模型之间的差距也在逐步缩小,每个模型都展现出独特的优势。但这些大模型都属于通用大模型,并非为新闻媒体、采编工作量身定制。
造成大模型“幻觉”问题严重的一大原因,在于训练文本和数据质量不高,其中包含不少信息错误。而新闻工作对准确性要求极高。这一短板直接限制了大模型在新闻领域的应用。然而,新闻媒体在长期的新闻报道中已经积累的大量高质量新闻稿件和数据,这恰恰为研发适合新闻采编工作的大模型工具提供了得天独厚的优势。
因此,自主训练和主导研发大模型工具变得尤为重要,借此,新闻媒体不仅能够最大限度地确保大模型训练数据的质量和生成逻辑的准确性,还能保证大模型生成内容的可控性,使其更好地契合媒体自身的属性和特色。
在研发方法上,可以将采编全流程拆分成数十个环节,如采访、翻译、稿件写作、提炼摘要和校对差错等。根据各环节的具体工作目标、方法和要求,对大模型进行专项训练,以形成一系列单任务或垂类AI工具。最终,将这些单任务AI工具打包汇集,则可以打造出一整套新闻采编AI工具。
每日经济新闻大模型评测小组
2024年11月
⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
接下来,“每日经济新闻大模型评测小组”将继续深入探索大模型的无限可能,从实际应用场景出发,对各个大模型进行全方位的评测,并定期推出专业报告,带来最前沿的洞察和发现。
在此,我们诚挚地邀请您,加入评测项目。
如果您是大模型的使用者,请告诉我们您希望在哪些场景中使用大模型,或者希望我们测试大模型的哪些能力。打开每日经济新闻App,在“个人中心”——“意见反馈”栏中留下您的想法和需求。