“曹植”大语言模型具有长文本、多语言、垂直化三大特点。
采写丨南都·琶洲π记者何茵桃
图片丨受访者提供
人物名片:
于敬
达观数据有限公司联合创始人
信息流通的海量增长,使数据已经不知不觉渗透到各个领域。面对庞大的数据信息,专业化的处理方式已是迫在眉睫。“大数据生态时代”正在来临,大数据领域存在着一座巨大的金矿,等待着去挖掘。
就在2015年,一家专注于智能文本处理技术的国家高新技术企业在上海面世。这便是达观数据有限公司(后称“达观数据”)。达观数据成立之初,于敬以联合创始人身份加入,此后一直从事算法研发及团队管理等工作。
于敬表示,算法的构建打磨是一个无止境的过程,充满了未知性。“对个人而言,算法有很多可以持续学习的地方,能让我产生强烈的驱动力,立志把模型算法的效果做得更好”,他说:“算法工作能够让人愿意持续投入,永远保持新鲜感。”
首创四段式推荐流程
挑选用户可能感兴趣的商品集合
打开手机上电商类APP往往能看到“推荐”或者“猜你喜欢”的栏位,用户通过上下滑,不断刷新出个性化的推演结果,且每次的结果都是不重复的。这背后的缘由或许可以用达观数据首创的“召回+排序+后处理+兜底”四段式推荐流程加以解释。
于敬解释,当用户做出上下滑动的操作时,实际上就启动了推演结果的生存逻辑。基于用户的兴趣点算法可从待推荐的商品中挑选用户可能感兴趣的商品集合,通过多路召回将数量控制在千数量级。随后通过算法模型进行预测打分,按照打分的高低对商品进行挂序。再对排序的结果进行干预,便可让用户每次刷新只需浏览10条推荐结果。而兜底是保险机制避免推荐结果数量不足导致推荐栏位“开天窗”。
这是达观数据自2016年开始研发的企业级智能推荐平台。其后,达观数据自主研发的智能知识管理系统、智能文本处理、智能推荐、智能搜索、智能写作、图像交字识别技术等产品,更是帮助了千余家企业实现降本增效,助力企业实现数字化转型。
在图像交字识别技术上,达观数据实现了中英文字符识别率能达到99%以上,这依赖于达观数据研发多年的智能图像识别平台。于敬称:“这需要将计算机视觉相关的技术以及自然语言处理技术进行深度融合,比如研发图像的矫正模型、文字检测模型、文字识别模型等。想要做得更完美,则需要大量的算法优化,达观数据融合了大量的来自金融、制造、能源等数十个行业的海量数据,不断优化模型。”
逐步提升参数规模
让大模型实现“七步成诗”
成立多年,达观数据一直在稳步前进。2023年达观数据发布“曹植”大模型并进行公测。于敬解释,该大模型取名自曹植七步成诗的典故,希望让大模型上演现实版的七步成诗。
据介绍,曹植大模型是国内首个垂直行业专用的自主可控的GPT大语言模型,可准确完成多类型、复杂结构的长文本写作。“曹植大模型主要应用于金融政务、制造等垂直领域场景,且已达到业界比较领先的水平。”
一年过去,达观数据在模型上进行了不少探索,参数规模逐步提升,目前主力模型参数规模已达到700亿。于敬表示:“参数量的多少直接反映了模型的复杂度及学习能力。参数越多,意味着模型能够存储或者处理更复杂更精细的知识信息,生成自然语言时也能更准确。
“从应用的角度来说,拥有700亿参数的大模型可以为很多行业带来很多新的应用机会。比如在工业制造、金融分析或者医疗等方面都可以发挥很好的作用,能够帮助企业做决策并提供个性化服务,实现中实际产业化应用。”
涉及各种业务场景
做好算法工作需绞尽脑汁
从业多年,于敬经手的项目涉及到了各种行业,“大家打开手机后看到的各种业务场景,我基本都有涉猎”。“算法工作极具挑战性。”于敬将之比作百米赛跑,“百米赛跑的成绩跑到10秒多或许很容易,但想突破10秒则需要绞尽脑汁”。
2024年,于敬带队参加了第三届琶洲算法大赛。达观数据基于大模型的个性化推荐系统脱颖而出,荣获亚军。谈及参赛初衷,他称:“希望通过这次大赛,能够跟业内各家企业进行更多的交流,也希望专家可以从更高的维度评价达观数据的项目,从而帮助达观数据将产品做得更好。
而被评选为“琶洲领军算法师”更是意外之喜。“得知评选结果后,内心非常激动。这是我职业道路上的大里程碑,是对我在算法领域工作十余年的认可。”于敬称,这一路充满了挑战,也获得了成长。
通过本次比赛的机会,于敬对琶洲有了更深的了解。琶洲算力中心获批,计划于2025年10月竣工。琶洲算力中心将用于科技产业研发,以满足各类高精尖产业的发展需求,打造集产、算、芯一体的广州智算新高地。于敬称,不难看出,在发展人工智能三大支柱上,即算法、算力、数据方面,琶洲具有明显优势,发展潜力巨大。
重磅的政策支持对企业及人才的引进都具有很大的吸引力。于敬称:“相信通过政策、基础设施建设、人才引进,技术创新等,琶洲会成为全国领先的大模型产业聚集地,必定能推动区域、甚至是全国人工智能产业的快速发展。”