12月7日,中国地质大学(武汉)发布了地球科学领域垂直大模型——“元古大模型”,不仅能为地球科学专业研究者和学生在科研、教学上提供便利,也有望在科普或博物馆等领域发挥作用。
该校地球科学学院教师刘小康告诉记者,在科研领域,“数理化”的基础知识已经不够用了,计算机和编程知识也成为科研工作必须掌握的。对于古生物学这样“古老”的学科,也应该学会用AI等新兴技术,来促进学科发展。
按照化石形态学特征复原的鱼类图。图/受访者提供
[1]可识别古生物化石,还可凭文字复原化石
“元古大模型”的基本功能有3个模块,其一是古生物化石的识别和鉴定,同时可解译图片中化石特征。其二是古生物文献知识抽取,提高阅读效率和数据采集效率。其三是化石复原,通过文字描述来复原化石模型。
12月11日,地球科学学院教师刘小康介绍,通用大模型在专业领域是不够用的,在学科领域需要大量的数据来训练大模型,数据是关键。而数据还需要经过检索、清洗、标注等过程,耗时费力,较为枯燥。例如,古生物化石的识别主要是通过海量的人工数据标注来实现的。
刘小康是该学院宋海军教授团队的一名老师,他从本科到博士都在中国地质大学(武汉)求学。据他介绍,研究团队对62万多张古生物化石图片、3000篇地学文献的45万余条地质实体与属性进行数据清洗与标注,这些数据构成了“元古大模型”基石。
孙佳瑞是地大古生物专业的博士生,据他估算,他经手检查和描述数据就有几万多条。“在这个过程中肯定有些枯燥,但是也加深了我对大模型的理解。毕竟一个数据科学家,80%的工作就是准备数据。”
除了图片识别之外,团队还在探索化石复原功能。初步来说,可以实现大体形态的相似,细节上还需优化,例如鱼鳍的形状,颜色等等。刘小康提到,化石复原的复原比通用任务更加讲究输出的精确性,因此对大模型的理解能力要求很高。
[2]古老学科要顺应大模型趋势,用AI提高效率
“大模型真的太火了,它也是接下来的一个发展趋势。我们这个项目从ChatGPT火了之后开始的,距今已有一年,在这个学科领域算布局较早的。”
刘小康介绍,目前的“元古大模型”是1.0版本,现已上线了古生物化石标本识别助手、地质文献数据挖掘助手和古生物学智能知识问答助手,将逐步上线地学智能搜索引擎和古生物科普数字人。未来还要不断扩充数据,拓展其在地质学领域新的应用场景。
古生物化石标本识别助手。图/受访者提供
“元古”这个名字饱含深意,它得名于地质时代“元古宙”。“元古宙”是地球历史上存在时间最久的一个宙,也是智力起源的时代,真核生命、多细胞生命和动物均起源于元古宙。“元古”寓意着智慧的起源,“元古大模型”也具备了初步的智慧能力,两者比较呼应。
他认为,新兴的技术有助于帮助科研人员从数据整理中脱离出来,让他们有更多时间做真正科学问题的研究。以往化石识别要花几天,复原化石要花几个星期,现在只需要几分钟。一篇长的英文文献,以前要数个小时,现在也只需要几分钟。
“团队人员必须懂得大模型的基础原理和算法逻辑。要学会用AI这种工具来提高学习效率,投身到真正的科学思索与研究当中去。”