人工智能的发展中,算法、算力和数据是三大关键要素。
其中,数据是大模型竞争关键要素之一,而高质量的庞大语料数据是大模型训练的核心能力。
1、AI语料行业概览
AI语料是指用于训练、测试和优化各种人工智能(AI)系统和模型的文本、语音、图像等数据类型,涵盖多种语言和领域,旨在帮助AI系统学习如何与人类进行交互、如何回答问题、如何执行特定的任务等。
自然语言处理(NLP):在NLP领域,AI语料用于训练机器学习模型,使其能够理解和生成人类语言。包括文本分类、情感分析、机器翻译、对话系统、问答系统等应用。
语音识别:在语音识别方面,AI语料包含大量的语音数据,用于训练模型将人类语音转换为文本。该
图像识别:AI语料包含大量的图像数据,这些图像数据被用于训练模型识别物体、场景、人脸等。
数据集和基准测试:AI语料也用于创建数据集和基准测试,以评估不同AI系统的性能。
2、AI语料市场格局当前海外开源语言和多模态数据集,主要发布方包括高校、 互联网大公司研究部门、非盈利研究组织以及政府机构、以及免费线上书籍、期刊的长期资源积累、高质量论坛等。
如百度“文心”大模型训练特有数据主要包括万亿级的网页数据,数十亿的搜索数据 和图片数据等;阿里“通义”大模型的训练数据主要来自阿里达摩院;腾讯“混元”大模 型特有的训练数据主要来自微信公众号,微信搜索等优质数据;华为“盘古”大模型的训练数据出公开数据外,还有 B 端行业数据加持。
3、AI语料数据集尽管国内数据资源丰富,但由于数据挖掘不足,数据无法自由在市场上流通等现状,优质中文优质数据集仍然稀缺。
数据标注
根据数据类型的不同,数据标注可分为图像标注、语音标注、文本标注、视频标注四大类。
目前我国的数据标注与审核业务的参与者主要包括两类,一是人工智能公司内部的标注部门,二是商务流程外包公司。
主要参与厂商包括 Testin 云测、倍赛、京东众智、百度众测、阿里众包等企业。
其中Testin云测、倍赛采用自建模式,通过自建工厂或基地提供数据标注服务;蚂蚁众包、阿里众包采用众包模式,通过搭建众包平台汇聚标注兼职人员力量;京东众智、百度众测、龙猫数据、数据堂则采用自建+众包的组合模式。