他们写的段子,成了AI试金石、“语料库”,他们是“弱智吧”成员

浅文聊生活 2024-09-21 16:20:41

9 月初,于全球三大金融科技大会之一——上海外滩大会之上,五位源自“弱智吧”的参会代表,再度声名远扬。

那些时日,在上海外滩大会的休憩室中,五位身着背后印有“弱智吧”三个醒目大字的白色 T 恤的年轻小伙,于一群院士、AI 独角兽创始人以及金融企业高管之间,显得尤为引人注目。

依官方所述,外滩大会自诩为全球三大金融科技大会之一,乃“具备全球影响力的金融科技与前沿科技大会”。而“弱智吧”则为发布冷笑话的百度贴吧。

弱智吧创建于 2004 年,彼时正值 PC 端论坛和社区蓬勃发展之岁。现今,这个已然成立 20 年的线上社区,业已汇聚了三百多万名吧友。

时常于互联网上徜徉的乐子人,或多或少都曾听闻自“弱智吧”传出的段子:

“生鱼片乃死鱼片”

“救火实乃灭火”

“指南针主要用以指北”

“等红灯实则在等绿灯”

“‌我最新的照片实则是我最老的照片”

“一个半小时究竟是几个半小时?”

“种何种因得何种果,种咖啡因得咖啡果”

……

正因这些脑洞大开、视角新奇的段子,在中文互联网每年的流行语中,弱智吧,始终占有一席之地。前沿科技大会与冷笑话段子线上社区,无论怎样审视,皆看似毫无关联。

然而在外滩大会的官方介绍里,“弱智吧”另有一重官方身份:“中文训练语料库机构”,并且是最为出色的中文语料。关注科技新闻的友人,或许尚有印象,早在 2024 年 4 月,“弱智吧”便已登上过一次热搜。

当时,来自中国科学院、北大、中科大、滑铁卢大学、曼彻斯特大学的研究者们,对各大中文平台进行了测试,总计收集了 13 个数据集。

最终,弱智吧力压知乎、豆瓣、小红书、百科乃至专业技术问答社区思否等平台的语料,成为使 AI 性能提升最为迅速的语料。其“辅导”过的大模型于问答、头脑风暴、分类、生成、总结、提取等 8 项测试中斩获最高分。至于缘由,研究人员于论文中仅是简略揣测:或许是弱智吧的问题强化了 AI 的逻辑推理能力。

一位曾测试过弱智吧语料的大模型专家向媒体记者阐释道,“弱智吧的价值在于其独特性。”于他而言:“倘若训练模型如同拼图,那么弱智吧便是所有致力于大语言模型的机构最为缺失的那一块。”

左起分别为弱智吧成员胡萝北、公孙闬、饭希与司徒P德

在接受《南方周末》记者采访时,弱智吧现任吧主公孙闬表示:“弱智吧不接纳真正的弱智,弱智不过是一种自我调侃。”

只要诸位浏览过这个以“弱智”为名的百度贴吧中的帖子便会察觉,在这个论坛里,用户会创作包含双关语、多义词、因果倒置以及谐音词等或令人击节称赞或“烧脑”的内容。

一些内容设有逻辑陷阱,即便对于人类而言,理解起来亦是挑战。

弱智吧的发帖门槛着实不低,每日,吧主公孙闬需审核数百条帖子,能够通过的不足 20%,帖子数量较多之时,“通过率仅有 5%”。在弱智吧,不管是吧主还是吧内的成员,他们皆未曾料到:自己偶尔发布段子的线上社区,竟会于 2024 年,成为训练人工智能的关键阵地。

这是一则无心插柳之作,也是一群热衷于异常逻辑的、漫无目的的年轻人,塑造意义的篇章……

今日我们便来谈谈他们的故事。

0 阅读:0

浅文聊生活

简介:感谢大家的关注