随着以ChatGPT为代表的大模型技术的快速发展,未来人们获取信息的方式将从“提出问题+使用搜索引擎+人工整理收集出来的信息”模式,变成“提出问题+大模型自动整理信息”模式。从而极大的解放生产力,提高生产力。
然而大模型的工作方式势必使得“信息茧房”现象更为严重。很大程度上,大模型的信息准确度、信息倾向性,将左右很大一部分普通人的认知。因此,“大模型”本身的认知倾向将成为一个左右社会认知的重要工具。
大模型对事物的认知取决于训练时所用的语料库。当前市场上缺少高质量的中文数据集,很多研究人员训练模型时只能直接购买使用外文标注数据集或者开源数据集。一些企业则采用从互联网爬取文本的方式来获取中文数据集。华为打造盘古大模型时,从互联网爬取了80TB文本,最后清洗为1TB的中文数据集。天津超算中心的天河天元大模型也在全域搜集整理网页数据,同时集成各种开源的数据集。
而一些互联网企业则使用自己的私有数据库做为训练数据集。例如百度的内容生态数据,腾讯的公众号数据,知乎的问答数据,阿里的电商和物流数据等等。
无疑,这些数据集,由于数据质量、数据整理人员素质、个人好恶等原因,必然质量良莠不齐。甚至会出现,以生成一张爱国主义图片为题,最终出现星条旗的效果。
因此,建设和发展符合中国国情的官方大数据模型语料库,是制定中文大模型标准,确定中文大模型测试方案的基础。对于新技术的发展应用,具有强烈的积极意义。同时也是对于现阶段中国语言文化知识的一次有效整理,其作用类似于明代编撰《永乐大典》、清代编撰《四库全书》。对于中文互联网的发展,具有里程碑的意义。
喜欢本文的话,欢迎关注活在信息时代哦:)