为推动语言与智能技术发展及应用落地,2021语言与智能技术竞赛在今年3月正式开幕,目前已有全球4000多人次报名参赛。现在,比赛报名已进入倒计时阶段,欢迎学术界和产业界的研究者和开发者参加本次竞赛!
数千支队伍参与激烈角逐
2021语言与智能技术竞赛由中国计算机学会(CCF)和中国中文信息学会(CIPS)联合主办,中国计算机学会自然语言处理专委会、中国中文信息学会评测工作委员会和百度公司共同承办。2018年至今该竞赛已经成功举办三届。今年的赛题内容覆盖了语言理解、人机对话和知识抽取等多个自然语言处理的重要研究方向,对于智能搜索、智能推荐、智能交互等人工智能应用具有重要意义。
本届竞赛将在第六届“语言与智能高峰论坛”上举办技术交流和颁奖仪式,获胜团队将分享总计30万元人民币的奖金。届时,论坛还将邀请国内外学术界、产业界的知名专家学者,分享语言与智能及相关领域的发展趋势和创新成果。
截至目前,竞赛已有超过4000人次报名参加。其中,企业选手覆盖了互联网、AI、通讯、金融、能源、航空航天等多个领域,其中包括腾讯、华为、阿里巴巴、字节跳动、国家电网、中国移动等知名企业;来自国内外知名高校选手占据总报名人次的60%,覆盖了大部分的985、211高校,包括清华大学、北京大学、复旦大学、中国人民大学等,还有慕尼黑工业大学、南洋理工大学、早稻田大学、爱丁堡大学等国际高校选手报名参加。
赛题挑战性显著提升 三大任务联手“千言”推动技术进步
本届竞赛设立了来源于真实应用需求的三大任务:机器阅读理解、多技能对话、多形态信息抽取。本届竞赛所采用的数据集均来自于中文开源数据集项目“千言”。与往届竞赛仅关注模型在单一数据上的效果不同,本届竞赛基于“千言”对每项任务设置了更加丰富的数据集合和评测维度,期望能够从准确性、鲁棒性和泛化性等多个角度对技术效果进行综合评价,从而推动技术更好地适应多领域、多场景的产业应用。
机器阅读理解是指让机器阅读文本然后回答和阅读内容相关的问题。当前的机器阅读理解数据集大多都只采用单一的指标来评测模型的好坏,缺乏对模型语言理解能力的细粒度、多维度评测,导致模型的具体缺陷很难被发现和改进。为了解决这个问题,本次赛题建立了细粒度、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化时代”。该数据集中的样本均来自于实际的应用场景,难度大、考察点丰富,覆盖了真实应用中诸多难以解决的问题。
多技能对话则指让机器融合各个不同的对话技能,同时考察模型在跨技能场景下的通用性。真实世界的人机交互会同时涉及到多种对话技能,如何自然地融合多技能对话是一个重要的挑战。因此本次竞赛聚焦多技能对话这一任务,在往年数据集基础上丰富了技能种类,覆盖了知识对话、推荐对话、画像聊天、闲聊等多种技能。该任务下的对话数据覆盖的对话技能多样、领域多样,对话交互场景均来源于真实的实际应用。
多形态信息抽取指让机器从自然语言文本中抽取实体、关系、事件等多形态知识,旨在使机器具备从海量非结构化文本信息中自动抽取结构化知识的能力。目前大多数相关研究工作仅关注单一类型信息的抽取效果,缺乏在不同类型信息抽取任务上的统一评价。因此本次竞赛设立了多形态抽取信息任务,希望从不同维度对结构化知识抽取效果进行综合评价。竞赛发布了业界最大规模的中文多形态信息抽取数据集,囊括实体、关系、事件等不同形态的结构化知识抽取,同时涵盖句子和篇章两种粒度的自然语言文本。此次竞赛希望通过开放的大规模中文数据集,助力信息抽取技术的进一步发展。
此外,百度飞桨作为中国首个自主研发、功能完备、开源开放的产业级深度学习平台,将为本次竞赛的参赛者提供技术支持。本次竞赛三大任务均提供了基于飞桨的基线,助力选手快速上手;基于百度飞桨的人工智能学习与实训社区 AI Studio 还提供了在线编程环境、免费 GPU 算力及开源算法数据支持。
长久以来,百度一直积极布局“人工智能+X”复合型人才培养,以百度飞桨(PaddlePaddle)为核心,围绕学习、就业、认证、实践、比赛等环节,将高校科研人才与企业应用人才培养紧密结合。本次竞赛,百度将全力创造最佳竞赛条件,进一步培养AI人才,推动技术应用落地与产业智能化发展。
距离报名截止还有最后一周,竞赛正在火热进行中,期待更多选手的加入,一起挑战前沿任务,推动语言与智能技术的发展!