顶尖大学团队道歉!竟抄袭中国大模型?

良禾上岸日记 2024-06-05 14:39:37

一个由斯坦福学生组成的AI团队,近日被曝出了抄袭行为,疑似抄袭了中国的大模型成果。6月3日,团队成员之一在社交媒体发文道歉,但在不久之后又删除了博文。

5月29日,一个研究团队发布了一个名为“Llama3-V”的模型,声称只需要500美元(约合人民币3625元)就能训练出一个SOTA(State of the Art,即最先进的)多模态大模型,效果比肩 GPT4-V、Gemini Ultra 、 Claude Opus ,但模型小100倍。

6月3日,面壁智能CEO李大海与联合创始人刘知远先后发文,回应开源模型被斯坦福大学AI团队抄袭一事。李大海表示:“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式,另一方面呼吁大家共建开放、合作、有信任的社区环境。”“我们希望团队的好工作被更多人关注与认可,但不是以这种方式。”

斯坦福本科生抄袭中国大模型

据公开信息显示,Llama3-V团队的其中两位作者 Siddharth Sharma 与 Aksh Garg是斯坦福大学计算机系的本科生,曾发表过数篇机器学习相关的论文。名校背景,特斯拉、SpaceX等大厂经历的成员,再加上号称足以“改变现状”的研究成果,Llama3-V受到了相当程度的关注。Llama3-V不仅在社交媒体上迅速蹿红,还一度冲上了HuggingFace趋势榜首页(机器学习领域中较有影响力的平台,其趋势榜一定程度反映出模型的流行度)。

但很快,便出现了对Llama3-V的质疑。

有网友爆料Llama3-V套壳国内大模型初创企业“面壁智能”和清华大学自然语言处理实验室联合推出的MiniCPM-Llama3-V 2.5,并在面壁智能GitHub的项目下放出了证据。

这些证据包括:Llama3-V的模型架构和代码与MiniCPM-Llama3-V 2.5几乎完全相同,仅有一些变量名和格式化的差异;Llama3-V使用了MiniCPM-Llama3-V 2.5的分词器(tokenizer),并且连同MiniCPM-Llama3-V 2.5定义的特殊符号也出现在了Llama3-V中;将从HuggingFace下载的Llama3-V模型权重中的变量名改成MiniCPM-Llama3-V 2.5的,模型可以用MiniCPM-V代码成功运行。

两个模型的代码对比

网友为什么不直接质疑Llama3-V,而是在面壁智能GitHub的项目下进行爆料?事实上,网友此前于6月2日在Llama3-V页面上提出的质疑,不过很快便被Llama3-V的作者已经删除了。

在MiniCPM-Llama3-V 2.5团队收到提醒后也迅速作出反应,于是一个新的证据出现。Llama3-V模型居然可以识别“清华简”。

公开资料显示,清华简是清华大学于2008年7月收藏的一批战国竹简,为战国中晚期文物。MiniCPM-Llama3-V 2.5团队透露,识别清华简是MiniCPM-Llama3-V 2.5的一项实验功能,训练图像是最近从出土文物中扫描并由MiniCPM-Llama3-V 2.5团队标注,且尚未公开发布。

而两个模型在识别的表现上,正确的结果上基本一致,错误的情况也颇为相似。

识别结果对比

鉴于这些结果,MiniCPM-Llama3-V 2.5团队表示,很难用巧合来解释这种不寻常的相似性,希望Llama3-V的作者能够对这个问题给出官方解释。相信这对开源社区的共同利益很重要。

而在受到质疑后,目前Llama3-V 的 GitHub 项目主页已显示为“404”,HuggingFace上Llama3-V项目也已经不可见,在作者社交媒体账号上也找不到此前宣传 Llama3-V 的内容。

作者回应质疑后删文

6月3日,Llama3-V团队成员Aksh Garg在社交媒体上发文回应了质疑。但随后不久这条回应便被删除。

网友截图,目前这条动态已不可见

另据媒体消息,面壁智能CEO李大海也对此做出回应,他表示,“技术创新不易,每一项工作都是团队夜以继日的奋斗结果,也是以有限算力对全世界技术进步与创新发展作出的真诚奉献。我们希望团队的好工作被更多人关注与认可,但不是以这种方式。我们对这件事深表遗憾!一方面感慨这也是一种受到国际团队认可的方式,另一方面也呼吁大家共建开放、合作、有信任的社区环境。一起加油合作,让世界因AGI的到来变得更好!”

5月29日,华为面向北部非洲发布星河AI网络产品及解决方案,其中包括网络大模型应用Net Master。

5月23日,阿里云宣布将在全球5个国家投资新建数据中心,分别位于韩国、马来西亚、菲律宾、泰国和墨西哥,将重点布局AI基础设施。同时,阿里云AI技术将首次“出海”。阿里云宣布,大模型服务平台百炼国际版即将上线,提供一站式、全托管的大模型定制与应用服务;阿里云最新版基座模型通义千问2.5将通过百炼平台提供API。

5月10日,科大讯飞新加坡办公室正式开业。早在2023年6月,科大讯飞就携讯飞星火大模型与C端智能硬件来到新加坡,抢占东南亚市场。2024年2月,科大讯飞在MWC 2024(世界移动通信大会)上宣布,旗下生成式智慧驾驶舱、讯飞听见同传、讯飞智作、全屋智能语音面板等产品在海外市场落地,登陆沙特、阿联酋、泰国、新加坡、马来西亚等市场。2023年以来,随着国产AI大模型相继推出,国内大模型技术公司便马不停蹄拓展海外市场。2023年6月,阿里巴巴国际站发布AI外贸产品,覆盖智能商品发布、市场分析、视频聊天实时翻译等环节。

2023年11月,华为云发布AI“出海”计划,将在海外节点陆续上线大模型全栈技术成果,帮助企业构筑大模型优势。在盘古大模型方面,华为云将在海外节点率先上线盘古自然语言、视觉、多模态、科学计算、预测等大模型能力。

2023年11月,字节跳动首次在海外上线基于云雀大语言模型(现名为“豆包大模型”)创建的AI工具平台“ChitChop”,为用户提供200余种工作、生活场景智能机器人服务。

截至2024年5月,字节跳动旗下子公司和团队面向海外陆续推出7款基于AI的应用产品,包括AI工具平台ChitChop、AI互动剧情产品AnyDoor(原BagelBell)和AI教育类产品Gauth等。目前,百度面向海外市场推出了3款AI原生应用,分别为AI相机Meira、AI聊天SynClub和AI社交WiseAI。

0 阅读:1

良禾上岸日记

简介:互联网冲浪jin牌选手