编辑:桃子 好困
【新智元导读】2000年前碳化的古卷轴,成功被AI破译了近5%的内容。三人天才团队拿下70万美元大奖,谷歌华人工程师一人拿下并列亚军。
2000年前碳化的古卷轴,如今成功被AI破译!背后三人团队还拿下70万美元大奖!
AI在考古领域的重大进步,甚至登上了今天Nature的头版。
要说这件事的起源,还得追溯到公元79年一次火山爆发, 直接将一座珍藏古老的纸莎草卷轴——Herculaneum Papyri的图书馆埋葬。
而这些卷轴,直到18世纪才被挖出,却早已成为炭焦的木块。由于太过脆弱,根本无法轻易展开。
今天,正式获奖的作品,展示了超过15栏的数百个单词,相当于整个卷轴的5%的内容。
值得一提的是,三人拔得头筹的团队中,有一位年仅21岁计算机天才少年Luke Farritor,成功用AI从图像裂缝中破译内容。
当时,他还在SpaceX暑期实习,偶然发现这场挑战赛的英雄贴。
另外,这场AI破译卷轴的大赛还有3个团队获得亚军,包括一位谷歌华人工程师单独获5万美元大奖。
从破译文字转录后可以读出,古代哲学家对「如何享受生活」「快乐」的探讨与争辩,还揭示了人们对音乐和冒险的沉思。
这一壮举为AI完整破译其余古卷铺平了道路,研究人员表示,这可能会对我们对古代世界的理解产生革命性的影响。
谷歌DeepMind的首席执行官:我迫不及待地想阅读这些被认为已经失传的古籍!
2000年后,我们终于可以阅读卷轴了!
下图3D还原了,岩浆吞噬图书馆的情境。
这些卷轴在公元79年维苏威火山的爆发中被碳化
直到18世纪,这些卷轴被挖掘出来。
目前,有800多卷被保存在意大利那不勒斯的一个图书馆中。
一位艺术家对珍藏卷轴图书馆的渲染
然而,这些碳化的卷轴无法在不损害的情况下展开。
一份卷轴不同的拍摄视角,看得出已经完全碳化,像一个木头块。
当任何人尝试展开卷轴,结果就是支离破碎。
那么,问题来了,我们该如何阅读这些卷轴?
2023年3月15日,Nat Friedman、Daniel Gross和Brent Seales发起了Vesuvius Challenge,就是为了解决这一世纪难题。
十个月前,我们发起了Vesuvius Challenge,旨在解决赫库兰尼姆莎草纸书卷这一古老问题。这是一批在公元79年维苏威火山爆发时被高温烤焦的莎草纸卷轴图书馆。
今天,我们欣喜若狂地宣布,我们疯狂的项目成功了。2000年后,我们终于可以阅读卷轴了!
这场挑战赛,要求参赛者在卷轴的4平方厘米区域内,至少找到10个字母。
最诱人的是,挑战赛为成功破译者提供超100万美元的奖金。
来自法国科学院的卷轴在牛津附近的Diamond Light Source粒子加速器进行了成像,然后公布了这些卷轴的高分辨率CT扫描图像。
以艺术化的方式构建3D卷轴
古卷是如何展开的?大体说,虚拟展开卷轴分三个步骤进行:
- 扫描:利用X射线断层扫描技术对卷轴或碎片进行3D扫描。
- 分割:在3D扫描图像中追踪卷曲的纸莎草层,随后将其展开或铺平。
- 墨迹检测:借助机器学习模型,识别铺平后段落中的墨迹区域。
这些卷轴是在位于英格兰牛津附近的Diamond Light Source(一种粒子加速器)扫描的。
该机器可以产生的高强度平行X射线束,使得成像快速、准确且分辨率高。通过断层重建算法,X射线图片被转化为3D体素体积,形成一系列的切片图像。
接下来,需要在3D空间中识别出单独的纸莎草纸张,这一步骤主要依赖于一个名为Volume Cartographer的工具。
Seth Parker在Diamond Light Source粒子加速器扫描卷轴
如下动画向我们展示了在Volume Cartographer中如何进行手动和自动分割操作。
最终步骤是,墨迹检测。
对于完整卷轴的大规模扫描,墨迹检测一直是个挑战,直到最近挑战赛发起团队在两个方向上取得了突破:
- 裂纹模式
去年夏天,Casey Handmer在检查平铺后的表面体积时,发现了一种奇特的裂纹模式,这些裂纹似乎组成了文字。
Casey因这一发现赢得了首个墨迹奖,并与社区共享了他的发现,随后引发了一系列的研究活动。
- Kaggle竞赛
与此同时,数百支团队在Kaggle竞赛中努力构建出最佳的机器学习模型,目标是检测那些在几百年前卷轴物理解卷过程中脱落的碎片上的墨迹。
与之前不同的是,他们利用了这些碎片照片上的真实数据进行训练,而不是标记尚未发现的裂纹。
虽然这些努力产生了一些优秀的模型,但它们在分割团队处理的平铺图像上似乎并不奏效。
直到谷歌华人工程师Youssef Nader应用了领域适应技术,这一技术最终帮他赢得了第一字母奖的亚军。
在得到训练数据后,全球众多参与者通过计算机视觉、机器学习不懈努力,不到一年时间,立刻攻克破解古卷阅读这一难题。
10个月的时间,他们取得了成功。
终于,在经过275年漫长的时间中,我们有能力阅读这些卷轴:
下图是PHerc.Paris. 4(法国科学院)的部分文本,2000年来首次被人阅读。大约95%的卷轴内容仍待揭晓。
卷轴字体被揭晓那刻,就会发现,被两千年的泥土和灰烬封存的祖先思维再次展现在世人面前!
那么,都有谁拿下了这次的大奖?
三人团队,斩获70万美元大奖
在众多参赛作品中,有一份作品非常突出。
评审结果公布,三人团队获得了Vesuvius Challenge 70万美元大奖,他们分别是Youssef Nader、Luke Farritor和Julian Schilliger。
这三位成员的名头可不小,而且是这场挑战赛中最重要的贡献者。
值得一提是,21岁的Luke Farritor是一名计算机学生,曾在SpaceX实习,是史上第一位从赫库兰尼姆卷轴读出整个单词ΠΟΡΦΥΡΑϹ(意为紫色)的人,并赢得了首字母奖的第一名。
就连他的个人主页,字体都有种年代久远的感觉。
柏林自由大学的博士生Youssef Nader在去年10月就读出了几列文本,并赢得了第二名的首字母奖。他的成果特别清晰易读,自然成为了团队的lead。
还有Julian Schilliger,是来自苏黎世联邦理工学院(ETH Zürich)机器人学学生,因其在Volume Cartographer上的卓越工作而赢得了三个分割工具奖,让我们能够看到如今的纸莎草区域3D映射。
为了拿下最终的大奖,三人组建了一个强大的团队,并向评审提交了一份,如今被评为最易读的作品。
提交的文件中,包含了三种不同的模型架构的结果,互相印证。其中基于TimeSformer的模型输出了最佳图像。
为了防止过拟合和数据幻读,他们采取了多种措施,包括采用多架构结果、研究不同的输入/输出窗口大小、应用标签平滑和多样化的验证方法。
这个墨水检测代码已经在GitHub上开源。
获奖者的主提交图片(TimeSformer 64x64)
除了卓越的墨迹检测能力,这份作品还展示了迄今为止,我们见过的最强大的自动分割技术。
便是由Julian开发的ThaumatoAnakalyptor(大致意为「奇迹揭示者」)能够从多个卷轴中生成大量纸莎草片段。
对已知区域的重新分割验证了之前的墨迹发现,全新的分割则揭示了如卷轴最外层包裹等其他地方的文字。
来自自动分段的输出。顶行与提交图像重叠,底行有新的分段。
谷歌华人工程师拿下亚军
此外,除了第一名拿下大奖,Vesuvius Challenge还评出了三个并列的亚军,将各自获得50,000美元奖金。
这些团队在墨迹标记和采样的细节处理上各有创新。
谷歌华人工程师Shao-Qian Mah
技术细节是对UNETR++模型进行了定制调整。这是一种基于变压器的 UNET 衍生工具,在医学成像中用作3D特征提取器,对深度层进行最大池化处理,然后使用基于Segformer B-5的最终特征提取器。
另外,还有2个团队共同获得亚军。
团队二:Elian Rafael Dal Prá, Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, João Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, 和Odemir Martinez Bruno。
团队三:Louis Schlessinger和Arefeh Sherafati。
5%的卷轴,写了什么?
到目前为止,研究团队已经成功展开,并阅读了第一卷卷轴的约5%,并对露出的文字进行了初步转录。
初步的阅读提供了这篇哲学文本的一瞥,根据学者的解读:
这篇文本主要探讨的是快乐,正确地理解快乐,在伊壁鸠鲁哲学中是最高的善。在卷轴的两段连续的文字中,作者探讨了食物等商品的可用性是否,以及如何影响它们提供的愉悦。
那些稀缺的东西是否比大量存在的东西带来更多的快乐?作者认为不是:「就像食物一样,我们不会马上相信稀缺的东西绝对比丰富的东西更令人愉快。但是,我们是不是更容易放弃那些大量存在的东西呢?这样的问题经常会被频繁地提出讨论。
由于这是卷轴的结尾,这种表述可能意味着在同一系列作品的后续书籍中还有更多内容。在文本的开头,提到了一位名叫Xenophantos的人,可能是同一位人物——假设是一位音乐家——也在Philodemus的《关于音乐》一作中被提及。
Philodemus,作为伊壁鸠鲁学派的一员,被认为是别墅中的常驻哲学家,在那里发现卷轴的小图书馆里工作。
初步、粗略的转录草稿如下:
在卷轴的后面:
在文本的结尾部分,作者对他的对手进行了尖锐的批评,他们「在定义快乐的问题上,无论是从总体上还是具体上,都无话可说」。
最后,卷轴以这样的话结束:
……我们不是不对某些事情提出质疑,而是对其他事情有所理解/记忆。并且,当这些事情经常显露出来那样,我们明白说出真相是很重要的!
学者们或许会将其称之为一篇哲学论文。
但对我们而言,是如此地熟悉,古轴的第一篇竟是讲述「如何享受生活」的两千年前的文章。
在结尾段落里,Philodemus是否在批评斯多葛学派,声称斯多葛主义是一个不完整的哲学。因为它「对于快乐一无所知」?
他似乎在讨论的问题——生活的快乐以及什么让生活变得有价值——仍然是我们今天思考的话题。
图片识别准确度如何?
人人皆知,机器学习模型通常会产生「幻觉」,即输出与其训练数据相似、但实际上是虚构的文本或图片。
同样,参赛者可能通过自己编造图像来作弊,例如将图像嵌入到模型权重中。
那么,如何确保这件事不会发生?这里有几种验证方法:
- 技术复现
Vesuvius Challenge技术审查团队亲手复现了获奖作品,确保完全理解了代码的每个细节,并独立运行代码时,得到了与原作品相似的图像。
- 多次提交相同区域的图片
你可能注意到,所有提交的图片都展示了卷轴的同一区域。Vesuvius Challenge向所有参赛者提供了分割团队用CT扫描创建的3D映射的纸莎草片段。
- 小范围的输入/输出
墨迹检测模型并不是基于希腊字母、光学字符识别(OCR)或语言模型。它们是独立地识别CT扫描中的微小墨点,这些墨点聚集起来后才形成了文字。因此,图片中显示的文本并非机器学习模型虚构出来的,而是直接基于CT扫描中的实际数据。
模型采用了较小的数据处理窗口:在一些情况下,它的输出结果甚至仅限于两种状态:「有墨迹」和「无墨迹」,这极大地降低了模型错误地生成类似字母形状的可能性
下一步是破译一部完整的作品。
Nat Friedman宣布了下一轮2024年Vesuvius Challenge奖,目标是在年底前阅读85%的卷轴。
与此同时,他表示,仅仅是走到这一步就「感觉像是一个奇迹,我不敢相信它竟成功了」。
这考古技术太差了,人家以色列挖出来的卷轴跟上周的一样
又造假,诶,我为什么要说又
又成功虚拟几千年历史[得瑟][得瑟][得瑟][点赞]
一两百年的东西,还当做两千年前的来考古[吃瓜]
呵呵,老套路了
假的,国外都没有超过1000年的东西,只有咱们有,他们有也是假的
我就想知道那个时候有纸了?这么快就传到西方了?那个时候技术传播这么快了?
请问ai是根据什么运算的?扯淡啊
这玩意儿能保存两千年?那个大墓出的?是那个神经病在死海石头上捣洞放幸苦写出来的东西?还写出来就一忘千儿八百年?
因为过于先进,我们还未公开的这种技术,外国人是怎么窃取的?……[不开心][不开心]
反正打不开看不了,爱咋写咋写的
这假造得真真啊
国内出土的保存完好的要么是石刻要么是竹简,只有西方人能出土出羊皮卷,看着还挺新的。
它们太强大,莎草纸简直是先天至宝仙气,水火不侵,刀枪不入,火山喷发的炙热火山灰和岩浆都不能破坏莎草纸,岁月都就不下痕迹
牛逼,技术太牛
什么古卷轴?其实是西方人自己伪造文物。还拿人工智能炒作。你破译一下甲骨文试试?
是不是记载了好多失传的 mod[得瑟]
卷轴都是现代制造的,当然能翻译了。
你确定这不是在景德镇瓷器窑里烧出来的?[笑着哭][笑着哭][笑着哭]
以后不要加华人两个字。大部分已经不当自己是中国人血统了。
国内专家太多,大部分都应该下岗[呲牙笑]
用“AI”破解古代文字,这个思路,确实是个“新思路”,比如,埃及字,玛雅的,那个泥板字……(统统翻译汉字最好[呲牙笑])
可以造一个一样的碳化物,并且知道其内容,用同样的手法写上去,只要AI能还原出来就说明技术过关
一本正经地胡说八道!东施效颦地伪造文物!
2千年,英文单词,🌿[呲牙笑]
过于先进,UC的网友表示无法理解或这必是假货
5%有个毛用
真实情况是,翻译出来5%的内容,剩下95%还没出来,😓,我还想读读看来着
这扫描仪我想要!
破译未知全靠想象[得瑟][得瑟]
甲骨文来试试
维烁威
老头滚动
视觉识别/视觉传感方兴未艾。
火山爆发都烧不坏书 牛逼了
专门建个图书馆放这些通篇废话的莎草纸?古罗马有那么闲吗?
AI:反正人类也不知道写的啥 随便编出来就行了[笑着哭]
我们的对撞机在研究垮克,相对于此,其他的不值一提
又是上周的吗
呵呵
牛逼
羊皮卷?还能识别?而且还烧成碳了?
一堆纸灰都要考古,别的纸就没有了?
红楼梦后四十回能找到吗?
碳化了,有些笔寄根本就看不到。那个时候,他们用什么笔记录文字?
现在做假做出新境界了,用ai来背书
来翻译下甲骨文
讲的外星人入侵地球
赶紧发展,少整这些小事
感觉死无对证啊[呲牙笑]
公元79年的图书馆,可以
惊为天人!不用打开书就能知道书里面的内容,即使烧成灰烬也能够完全复原纸上的文字, 这是高科技时代的无中生有无吗?[呲牙笑]
做假对有谱
Al可以破解甲骨文
这个文字应该也是表音文字,即使破解了也应该只是一个音标,具体有什么含义应该是瞎猜的吧。
让人类文明进步的人值得点赞
我比较好奇训练集是什么[笑着哭]找了一大堆卷轴烤成炭么[笑着哭]
乱编就行了,反正谁也不懂
识别甲骨文
翻译完讲的耶稣呗!
拼音文字说能被破译,太假了!拿什么当词根?想象吗?甲骨文都得字形含义结合推测当时社会才可能勉强推测破译出来!假!太假了!
开眼吧, 不愿意承认,但是确实是全面落后了
科技技术带来成就
2000年前,咋就上古了? 翻译的有依据嘛?
嗯嗯,以后造假更方便了
这是混沌至宝吧[得瑟]
反正大家都不知道里面写的什么,然后我出几个人随便编几个故事,说什么就是什么了
CT扫描+三维重建
不懂就问:AI用不用程序?需不需要输入知识?是不是输入什么就能学什么?和幼儿一样,放什么语言环境就能学会什么语言。也就是可以人控制的。
谁都看不懂,就算是能看懂的都死了,全靠编[抠鼻]
才两千年而已,一部老子就是他们永远无法体会的巅峰