盛世修书，是时候出台中国官方大模型语料库了

活在信息时代 2023-10-30 23:51:39

随着以ChatGPT为代表的大模型技术的快速发展，未来人们获取信息的方式将从“提出问题+使用搜索引擎+人工整理收集出来的信息”模式，变成“提出问题+大模型自动整理信息”模式。从而极大的解放生产力，提高生产力。

然而大模型的工作方式势必使得“信息茧房”现象更为严重。很大程度上，大模型的信息准确度、信息倾向性，将左右很大一部分普通人的认知。因此，“大模型”本身的认知倾向将成为一个左右社会认知的重要工具。

大模型对事物的认知取决于训练时所用的语料库。当前市场上缺少高质量的中文数据集，很多研究人员训练模型时只能直接购买使用外文标注数据集或者开源数据集。一些企业则采用从互联网爬取文本的方式来获取中文数据集。华为打造盘古大模型时，从互联网爬取了80TB文本，最后清洗为1TB的中文数据集。天津超算中心的天河天元大模型也在全域搜集整理网页数据，同时集成各种开源的数据集。

而一些互联网企业则使用自己的私有数据库做为训练数据集。例如百度的内容生态数据，腾讯的公众号数据，知乎的问答数据，阿里的电商和物流数据等等。

无疑，这些数据集，由于数据质量、数据整理人员素质、个人好恶等原因，必然质量良莠不齐。甚至会出现，以生成一张爱国主义图片为题，最终出现星条旗的效果。

因此，建设和发展符合中国国情的官方大数据模型语料库，是制定中文大模型标准，确定中文大模型测试方案的基础。对于新技术的发展应用，具有强烈的积极意义。同时也是对于现阶段中国语言文化知识的一次有效整理，其作用类似于明代编撰《永乐大典》、清代编撰《四库全书》。对于中文互联网的发展，具有里程碑的意义。

喜欢本文的话，欢迎关注活在信息时代哦：）

1 阅读：172

活在信息时代

关注信息时代的技术发展与社会伦理变迁

作者最新文章

1

购入苏州“毒地”索赔100亿，陆家嘴这事细思极恐

2

女律师被当街锤击却一片叫好，折射出当下人们对于法律的不信任

3

距离成为世界上最大的车企，比亚迪还有多远？

4

情报局长竟然因遭到死亡威胁而辞职，是时候终结美国的世界霸权了

5

在中国国势上升的年代：你可以不满意，但请不要添乱

6

家长们请注意，别被“青少年视力养护”加盟店给忽悠了

7

传统企业的数字化转型当慎重，从星展银行被暂停非必要IT业务说起

8

遮挡号牌被扣12分？车衣就是早些年的电视机罩

9

越做越厚的标书和越来越水的项目，折射出一个时代的忧伤

10

盛世修书，是时候出台中国官方大模型语料库了

科技TOP

1

中方痛打英伟达?最高罚款超50亿美元,摆在黄仁勋面前只有2条路

2

全球首颗!中科院公布“炸裂性”消息,外媒:美方“神话”被打破

3

苹果发布召回计划,这些机型可以免费换新,快看看你的!

4

美国施压,ASML拒绝维修中国的光刻机!阿斯麦:契约精神我说了算

5

华为正式官宣:12月17日,将会载入历史!

6

再颁“铁命令”,三大运营商必须12月16日起执行,移动绝望!

7

华为Pura70Ultra新版开售,售价有点看不懂!

8

宣布:谁敢进入乌克兰,就击沉!你击沉试试?

9

1999元!小米明年第一款手机,实力太强了吧

10

华为又立功了,荣耀手机挡住了子弹

科技最新文章

1

任正非:还过个屁年!卡我们脖子的根本不是美国人,而是自己人

2

荣耀开启“清仓模式”,性能旗舰加速退场,12GB+256GB才卖1629元

3

首销1秒破亿,骁龙8Gen3+2亿像素,如今突降至2099元濒临下架

4

荣耀果断“发飙”,卫星消息手机突降至1869元,512GB+6600mAh

5

从4699元跌至3335元,从高端机跌至中端机市场,100倍变焦+512GB

6

OPPO不讲武德,12GB+256GB降到1327元,堪称千元机“新黑马”

7

刚刚公布的性能榜,最漂亮的手机排名第一

8

目前荣耀性价比最高的手机,搭载骁龙8Gen3仅2199元

9

500元的5G安卓平板,标配6G+128G存储,自带键盘套

10

荣耀高端机一跌再跌,骁龙8Gen3+100倍变焦+卫星通信,降了2119元

热门分类

军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球健康房产家居星座旅游健身时尚科学探索职场育儿股票教育影视情感热点推荐热榜中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期青骄第二课堂少年风超级父母麻辣老师街拍恋爱攻略婚姻情趣正能量