AI高质量数据短缺预警?乌镇峰会首发AIGD平台破解难题

钱江晚报 2024-11-19 17:51:15

潮新闻客户端记者张云山柳蓬

潮新闻记者张云山柳蓬

11月19日下午,在2024年世界互联网大会乌镇峰会上,行业大模型、具身智能等领域的10项首发成果精彩亮相,其中AI数据合成与生产平台AIGD(AIGeneratedData)凭借其在数据合成领域的创新技术,吸引了广泛关注。

蚂蚁数科AI科技技术负责人、蚂蚁天玑实验室主任李哲

随着AI技术的快速发展,高质量数据已成为AI应用深入产业的重要基础。然而,据EpochAIResearch研究团队预测,到2026年,现存用于AI模型训练的高质量语言数据将面临耗尽的困境。在此背景下,数据合成技术显得尤为重要。蚂蚁数科AI科技技术负责人、蚂蚁天玑实验室主任李哲在峰会上表示,未来的AI应用将需要大量稀缺且难以获取的长尾数据,如自动驾驶中的极端天气与路况数据,以及具身智能所需的复杂场景数据。AIGD平台的推出,正是为了应对这一挑战。

AIGD平台具备PB级数据生产能力,支持从数据生成到训练的全流程自动化处理,自动化率高达80%。平台自研了15余种数据合成工具,能够合成图片、视频、3D模型等多模态数据,满足多种应用场景下的AI模型训练需求。业内人士认为,AIGD平台的出现,将有效缓解高质量数据短缺的问题,推动AI技术深入千行百业。据Gartner预测,到2030年,合成数据将成为AI模型的主要训练数据来源;2024年,60%的AI数据将是合成数据。此外,AIGD平台还具备数据标注和质检能力。通过人机协同标注,预标注模型依赖人工标注量降低了70%以上。在数据质检方面,平台会根据元信息支持不同粒度的数据质量统计,确保合成及标注后的数据符合预期质量要求。蚂蚁数科今年陆续发布了多款AI产品,包括大模型安全评测与防御产品“蚁天鉴”、反深伪造产品ZOLOZDeeper等。作为一家面向ToB服务的科技公司,蚂蚁数科将继续坚定在AIToB领域的投入,推动AI服务产业的黄金年代到来。此次乌镇峰会上,AIGD平台的亮相不仅展示了蚂蚁数科在AI数据合成领域的创新能力,也为解决AI高质量数据短缺问题提供了新的思路和解决方案。

0 阅读:15

钱江晚报

简介:钱江晚报官方账号