启动ImageNet项目,建立庞大视觉数据

鹰哥爱写文 2024-11-01 04:38:04

《我看见的世界》作者:李飞飞

​上一节,我们讲了李飞飞的大学和研究生生活。在导师们的引导下,她开始关注视觉研究。2004年,她所在的团队创建了加州理工学院101类图像数据集,成为有史以来为机器学习配置的最大规模的图像集合。视觉研究领域也成为她后来一切学术旅程的主线。

那么在今天这节,让我们继续李飞飞的探索之旅,看看她是如何面对新的挑战,不断超越自己的?

ImageNet改变历史

从加州理工学院读完博士后,李飞飞和西尔维奥结婚了,但两人因为工作不在一个地方,不得不两地分居。李飞飞受邀回母校普林斯顿大学任教,和父母住在一起,同时又能和恩师萨贝拉先生一家团聚,她感到特别快乐。

学术路线上,李飞飞依然在进行视觉分类本质的研究。虽然几年过去了,但她常常反思在加州理工学院时,创建101类图像数据集期间所经历的一切,通过对计算机学习算法的研究,做过的心理物理学实验,以及这个大规模数据集在计算机识别能力上所展现出的力量,李飞飞越发确信,“分类”在理解视觉、甚至理解整个人类智能方面,都起着至关重要的作用。

当年的101个类别已经很多了,但要想让人工智能取得实质性的突破,这个数据量显然还不够。那么,到底需要多少个类别,多少个图像,才能让算法更加精确,识别力更强,错误率更低呢?

李飞飞还在茫茫文献中寻找线索,直到有一天,她看到现代视觉研究成果的主要贡献者之一欧文·比德曼的一篇论文,里面提到,世界上大约有多少独特的事物类别呢?也就是说,如果把所有不同类型的事物,比如企鹅、摇椅、过山车、拉布拉多、山、河流,等等都加到一起,总数会是多少呢?欧文·比德曼估算的答案是:3万个。

要知道,创建101类图像数据集,都是一项无比艰巨的任务,3万个类别,等同于天文数字。但是,既然知道了,有了参照数据,就无法再回避,李飞飞想,无论这个数字要带自己走向何方,她都义无反顾。

每当与同事们讨论建立一个更大数据集的想法时,李飞飞得到的都是清一色的质疑和劝阻,有人说“有上万个类别的数据集能有什么用?大部分计算机模型连一两个类别都识别不准!”有人说“你这个图像总量比大多数硬盘的存储量都大,别人该怎么下载呢?”还有人说“不好意思,我感觉这个项目真的没法做。”

但执着的李飞飞不肯回头,最后,她和一位极其有天赋的研究生邓嘉合作,组建了只有两个人的团队,并为这个即将打造的超级数据库项目命名为“ImageNet”,翻译过来就是“图像网”的意思。李飞飞希望通过捕捉一个“完整的”现实世界,来更好地训练计算机模型。

说干就干,两人设定了创建2.2万个分类的总目标,计划为每个物品类别搜集1000张不同的照片,比如,1000张不同的小提琴照片,1000张不同的德国牧羊犬照片等等,全部2.2万类别,一共需要2000多万张图片。这是最终成品数据库的数字,而要想做到这个量级,他们可能需要从数亿、甚至10亿张照片中筛选,才能达成目标。

然后,他们招募了几名愿意帮忙从网上下载图片,标注图片的本科生,工作时间灵活,每小时10美元。虽然很快就来了一些学生,但是他们的速度非常慢,邓嘉估算了一下,按这个速度的话,图像网项目完工需要差不多19年。

要是多招些学生,当然也是一种选择,只是成本会增加不少,而且,如果真要十几年才做得完的话,实验室的预算远远不够。

为了降本增效,邓嘉进行了一系列的流程优化,从用搜索引擎寻找图片、梳理查询结果、找到合适图片、标注分类、到最后放入适当的目录都进行了规范,还在一些环节设计了程序,从而实现自动化,使得团队能够日夜不停地下载候选图片,但没过多久,就因为图片搜索请求超过限制,遭到了谷歌的屏蔽。

李飞飞和邓嘉又想出新的解决办法,他们采用动态IP,作为实验室的机器连接谷歌服务器的中间环节,这样,谷歌会认为图片搜索请求来自不同的用户,实验室下载图片的工作才得以恢复。

一年后,项目开始步入正轨,团队工作不断取得新的进展。这天,李飞飞满怀期望问邓嘉,现在预计要多久能做完。邓嘉告诉她,大约18年。

绝望激发了各种各样的创造力,李飞飞想方设法要改变这种惨淡的处境。有研究生告诉她,亚马逊提供一种众包的服务,叫作“土耳其机器人”,可以帮他们提高项目速度。

所谓“土耳其机器人”,源于18世纪一种会下国际象棋的自动机器。当时,这个机器人在世界各地巡回演出,棋艺高超,连国际象棋高手也甘拜下风。然而,虽然看起来是机器人在干活,但实际上活还是人干的,因为在机器人的底座里,藏着一名国际象棋大师,是他在操控着机器下棋。

几个世纪后,新兴的众包服务基于同样的理念诞生了,看起来是智能自动化,实际仍由人类来完成。在线平台能有效组织远程的临时工作团队,规模小到几个人,大到数百万人,将任务分配和结果收集的过程自动化,从而大幅提高工作效率。

李飞飞和邓嘉尝试后发现,这个新兴的由平台提供的众包服务,竟然成了他们项目加速的最大突破口,它把团队曾经的大学生标注员队伍迅速扩展到一个由几十上百人、直至数千人组成的国际团队,项目预计完工时间不断缩短,从原来的19年、18年,变成了10年、5年、2年,最终不到1年。而且预算很低,之前实验室人工成本的预算只能招到几个标注员,连一个房间都站不满,现在,同样的费用足够聘用一支成员遍布全球、通过互联网高效连接的众包团队,每天都有成千上万张图片被筛选下载和标记分类,项目日臻完善,进度令人欣慰。

2009年6月,图像网的初始版本完成,成功达成了预定目标:筛选了近10亿的候选图片,收集了1500万张,涵盖了2.2万个不同类别,不仅在规模上和多样性上达到了李飞飞多年来梦寐以求的水平,还保持着相当的精确度,每张图片都经过了手工标注,成为当时人工智能史上最大的人工编辑数据集。

李飞飞团队充满期待地参加了2009年的计算机视觉与模式识别大会,这是领域内的顶级盛会,他们迫不及待地想向世界展示这项成果,没想到,却高开低走,大失所望。图像网在会议上遇冷,被降级为“海报展示”,只能做些简单介绍,团队没有机会充分展示他们的愿景,这个耗尽心血的项目,没能像团队之前想象的那样,被当做丰富无比的资源,受到业界的欢迎。深深的疑虑攥紧了李飞飞的心,难道之前同行的劝阻和反对是正确的吗?做这个项目真的是在浪费时间吗?

恩师萨贝拉先生去世

李飞飞没有放弃,她仍在坚持,要将图像网推向世界。当时,从2005年起,每年都有一场年度计算机视觉大赛,比赛采用一些基础数据集,由来自世界各地的参赛者提交经过数据集训练的算法,然后用算法去识别一组之前没有见过的新图片,最后,根据算法识别的准确度对算法进行排名,错误率最低的算法获胜,这个比赛吸引了各方对计算机视觉领域最新进展的关注,而比赛所用的数据集,只有图像网的千分之一大小。

李飞飞受到启发,也想通过比赛来探索或验证自己的项目成果。于是,她和团队开始筹备类似的比赛,用图像网来训练算法,之后再用一组算法没见过的图像来进行测试,评估算法识别新图像的准确率,并为算法进行排名。

从2010年起,李飞飞团队每年举办一场比赛,结果却一次又一次地令人泄气,采用图像网做数据库后,这两年的获胜算法,在识别能力上并没有太大的改进,而且第二年的报名参赛人数也大幅下降,李飞飞开始思考,自己是不是真的输了?

在图像网最艰难的这段日子里,李飞飞怀孕了,疲惫感深入骨髓,尤其到了孕后期,她的身体反应特别大,简直度日如年,医生禁止她出行,但是,她依然每天盯着电脑办公,手机响个不停。

一天半夜,手机突然震动起来,是萨贝拉先生的妻子琼打来的,她焦急地告诉李飞飞,萨贝拉先生摔倒了,失去了平衡能力,送医后做了快速脑部扫描,在等结果,情况看起来很不好。

李飞飞艰难地坐起身来,想跟萨贝拉先生通个话,但电话那端,那熟悉的声音听起来很遥远,又非常吃力,呼吸急促,声音微弱而嘶哑。

萨贝拉先生最终被确诊为晚期胶质母细胞瘤,无法手术。李飞飞疯狂地联系每个认识的人,想找到能帮助萨贝拉先生的医院,她联系上了一所大学医院的神经生物学部门,第二天就把萨贝拉先生转到了最先进的护理病房。

然而,萨贝拉先生的身体状况恶化得非常快,在发现肿瘤几天后就失去了意识,不到三周就与世长辞了。送别了这位如师如父的人,李飞飞陷入了漫长而巨大的悲痛。

柳暗花明

2012年,图像网如期举办了第三次比赛,那段时间,孩子刚刚出生,比赛结果宣布前,李飞飞本不打算去现场参加了,但在深夜却接到邓嘉的来电。一向性格沉稳的邓嘉,此时的声音听起来非常激动,他带来了一个令人振奋的消息:今年的获胜算法的准确率非常高,采用的是非正统的神经网络算法,而这种算法所需要的,正是庞大数据集的支持,遇冷三年的图像网终于向世界展现出了自己巨大的力量。

这是梦寐以求的结果,却又那么难以置信,李飞飞放下家中一切,乘飞机连夜赶赴比赛现场。那么,接下来又会发生怎样的故事呢?让我们下节继续。

0 阅读:0

鹰哥爱写文

简介:感谢大家的关注