近日,由南京农业大学和中华书局古联(北京)数字传媒科技有限公司合作研发的“中华物产大模型”在世界互联网大会乌镇峰会发布。围绕“AI赋能下的中华物产与文明探源”,南京农业大学人文与社会发展学院教授包平和信息管理学院教授王东波分别作了《数智赋能下的中华物产与文明探源》和《中华物产大模型简介》的主旨报告。
中华物产大模型框架图
此次发布的中华物产大模型是一个集合了多家机构数据资源、算力资源和算法资源的系统工程。整体构建过程分为物产大模型预训练语料构建、预训练模型训练、对话模型构建与知识库问答实现三大板块。
王东波介绍,由于物产大模型需要同时满足对于古今物产资料的有效处理,因此需收集到含有高质量物产信息的语料。南京农业大学中华农业文明研究院所保存的3600万字的手抄本《方志物产》资料是合适的训练语料之一。
从2008年开始,包平教授团队在先前基础上,进行了中华历史方志物产文献的补遗和全口径物产文献的辑录和智能化整理,涵盖了地方志以外的其他记载物产的文献,包括正史、农书、本草、名人笔记、博物志、异物志等,使这套中华物产资源达到4800万字并逐步开始活化利用,团队基于此资料开展了深入的智能整理与知识挖掘研究,为后续与中华书局古联公司联手构建中华物产大语言模型奠定了坚实的数据基础。
在中华书局古联公司所提供的具体场景基础上,王东波团队在这一阶段采用了当前最先进的深度学习技术,基于自然语言处理领域的基座模型,使用混合了超过20亿字物产资料、方志文献、古籍文本和指令对齐数据的综合数据集来训练40亿参数的大语言模型。经过多步优化训练出支持二次开发的物产基座模型,在多组实验上的结果显示该模型能够在方志翻译、方志标点、物产实体识别等一系列物产文本处理任务上取得超过原模型的训练效果,更加适合物产领域的开发。
中华物产知识智能活化与利用会意图
王东波团队使用了45万条对话数据来训练模型的基础对话功能和逻辑能力,尤其强化了模型在物产数据处理和物产问答方面的效果。在应用端,中华物产大模型进一步与外部工具或知识库结合,通过物产识别、物产链接和检索增强问答功能为用户提供精准、便捷的物产信息查询服务,给学术研究、商业开发等领域提供有力支撑。
据包平介绍,中国拥有数量极其丰富的长时段连续记载的物产历史文献资源,开发一种能够同时利用好古代和现代物产信息的大语言模型对于推动物产资源的活化利用具有重要意义。未来,依托南京农业大学中华物产与文明探源协同创新中心这个平台,在加强对中华物产史的理论研究基础上,还将在人工智能和物产挖掘结合的研究方向上进一步深耕,推出能够支持更多模态物产资源处理的工具,推动中华物产文化走向世界。
据悉,中华书局是国内古籍整理与出版的权威机构,南京农业大学于2023年与中华书局联合成立了“中华物产与文明探源协同创新中心”,中心旨在从具有农耕文明鲜明特色的物产史研究入手,从远古神话里描述的物产到现代科技下呈现的物产,从单纯物产史研究到物产与自然、社会、经济、文化的关联,揭示中华物产与文明进程的历时脉络。
通讯员 楠秾萱
扬子晚报/紫牛新闻记者 王赟
校对 陶善工