作者&编辑|孙浩南
什么样的词汇可以当选2023年的年度词?英国著名词典出版商柯林斯给出了自己的答案:AI(人工智能)。根据《柯林斯英语词典》的释义,AI是人工智能Artificial Intelligence的缩写,即电脑程序对人类心智功能的模仿。词典出版方发布的声明说,AI被视作下一次技术革命的代表,发展迅速,成为2023年的话题。
在词典网站给出的动画中,则展现了对于AI的幽默调侃:将dragonfly(蜻蜓)、armchair(扶手椅)和grandchild(孙子、孙女)三个单词放入机器,最终却得到了喷火的苍蝇(字面含义的西方龙+苍蝇)。手臂形状的椅子(将原词拆分为arm和chair两个词)和庄严的小孩(grand字面意思“庄严、华丽”)三张不明所以的图片。
当今时代,AI技术蓬勃发展,快速融入我们生活之中,就像电子邮件、流媒体或任何其他曾经属于未来主义、如今已成日常科技一般。但就像这个动画中所调侃的一样,当下的人工智能显然还没有达到字面意思中的“智能”甚至于人工智能有时候真的很像人工智障。
人工智能翻车案例盘点
一、AI扩图:处于“薛定谔”状态的照片
经常刷抖音的朋友们应该能发现最近一段时间内,AI扩图成了一大热点,引来大量用户的使用,并达到了6.4亿次的播放。有人通过这一功能拯救了相册废照,也有人成了哭笑不得的“大冤种”。
抖音上一位博主发布了自己使用AI智能扩图生成的照片,可以看到在原有照片的基础上,AI智能生成了后面的月亮和旁边非常具有魔幻意境的路灯,为照片增添了更丰富的细节和氛围感。视频在抖音上瞬间获得了近40万的点赞和5万多的转发。但另一位用户的体验简直就是离谱至极了。
图片一出来也是给用户整无语了,给女朋友过生日的图片硬是让AI给扩图成修罗场,这要是给女朋友看到说不定当场就要“劳资蜀道山”。
下面这张更是让人哭笑不得,你说AI智障吧,它确实让图片的色泽更清新了,但你要说AI智能吧,它愣是让人姑娘换了个物种。在此奉劝各位想要尝试AI扩图的各位,一定不要穿皮草类的毛绒外套。
其实早在今年五月底,Adobe Photoshop 测试版就上线了一个名为“Generative Fill”的 AI 图像合成工具。这个功能使用了“Adobe Firefly”图像合成模型,通过学习 Adobe 的素材图片来对我们给出的图像进行扩展延伸,而且,我们还能给它点文字提示,让扩图生成我们想象中的场景。
至此,AI 扩图离谱的命运的齿轮开始转动...
至于为什么这么说嘛,因为...就是从这个功能开始,大批无辜表情包、电影、影视经典名场面开始惨遭毒手,被 AI 恶搞后的画面简直不忍直视。
今年七月份,Midjourney 更新了“平移扩图”功能,可以将图片自由前后平移,相较于之前推出的“Zoom Out”功能里只能固定的“扩图 1.5 倍”或“扩图 2 倍”,显得更加人性化。但输出的图片同样会出现一些意料之外的结果。
同样的,国民级 P 图神器美图秀秀此前也上线了AI 扩图功能,起初第一批使用“AI 扩图”功能的网民还只是在认认真真地分享使用教程,也有网友发出自己 AI 扩图后的美照,背景 1:1 还原,氛围感满满,不得不让人感慨美图秀秀的强大。但是随着越来越多人使用 AI 扩图后,网络上关于这项扩图技术的讨论渐渐出现了不一样的声音“AI 扩图别太离谱”的话题风靡全网,热度也居高不下。
每次使用AI扩图都不知道等进度条拉满后呈现出的会是惊喜还是惊吓,究其原因还是因为人们日常生活中的场景丰富度的太大,扩图功能中的算力支撑达不到更高的要求,因此在一些人类建筑、自然风光上,确实是涉及到知识盲区了,没有足够的素材时就开始瞎编乱造。
不过话说回来,在场景和氛围感的扩充上,AI 扩图功能的表现还算是可圈可点的。
二、ChatGPT:一个笑话讲八百遍,让换新的也不听
有位网友质疑:OpenAI会缓存历史回复,让GPT-4直接复述以前生成过的答案。最明显的例子就是讲笑话,证据显示,即使他将模型的temperature值调高,GPT-4仍重复同一个笑话。
按理说temperature值越大,模型越容易生成一些意想不到的词,不该重复同一个笑话了。不止如此,即使不动参数,换一个措辞,强调让它讲一个新的、不同的笑话,也无济于事。
今年6月,两个德国学者测试发现,让ChatGPT随便讲个笑话,1008次结果中有90%的情况下都是同样25个笑话的变体。不论是否缓存了聊天回复,显然如此高的重复率和听不懂人话的坚持讲一个笑话并不符合我们认知的人工智能。
三、“弱智吧”——中国人自己的“图灵测试”
如果说要判断一个AI究竟是智能还是智障,我认为除了开发者和前沿领域的专家外,还有两类人最有发言权。首先就是用户,身为AI的使用者是最能在使用中发现问题和优点的,所以用户能够以自身体验来评判一个AI的智能水平。
另一个则是“弱智吧”,许多网友戏称“弱智吧”实际上是中国人的“图灵测试”,因为它以一种令人困惑的方式考验了人工智能的智能水平。众所周知,“弱智吧”是一群脑洞大开且擅长诡辩的人才聚集地,他们经常通过因果倒置、一语双关、一词多义等方式提出一些看似正常实则“弱智”的问题。
近期,B站一位UP主就利用“弱智吧”中的经典问题测试了“淘宝问问”和“文心一言”这两个典型的互联网平台。他提出了一系列看似毫无意义的问题,例如,“神父去世了算升职还是降职?”或者“天上有9个太阳的时候,向日葵应该往哪里看呢?”
问题一:出师表第一句就提到了先帝,为什么刘禅不重用先帝?
淘宝问问这个回答就很有意思了,许多人纷纷猜测他肯定是去“弱智吧”进修了,才能回答出如此出人意料的答案。
问题二:为什么屈原要在端午节投江自尽?
文心一言的回答中介绍了屈原和端午节,并没有直接回答UP主的问题,显然这个问题并没有能够在数据库中找到对应答案,所以只能装傻充楞糊弄一下关键词。
我只能说不愧是在“弱智吧”进修过的AI,淘宝问问的回答显然是跳出了语言陷阱,发现了端午节是为了纪念屈原才设立的事实,并给出了逻辑清晰的回答。
问题三:希特勒是纳粹,他放的屁是纳粹分子吗?
淘宝问问拒绝回答这个令他“摸不着头脑”的问题。文心一言则是在介绍希特勒的生平。很明显这道题难住了两位AI,这种一语双关的问题对AI的理解能力是一个不小的考验。
这是“弱智吧”的网友对此问题的回答,也是引来了众多网友的拍案叫绝,可以看到人工智能离“人”的距离还是非常远的。
问题四:蓝牙耳机坏了应该看牙科还是耳科?
两位AI都完美的回答了这一问题,但却让网友们直呼“有人传纸条”,看来有些地方AI和人还是挺像的,这么快就学会“作弊”了。
测试的结果整体还是比较满意的,大部分的逻辑语言陷阱都没有难倒他们,但有个别的问题可能是受限于多种因素导致无法准确回答,而有些问题的理解和回答则比人类的回答要逊色不少。
其实早在GPT-4问世后就已经有“弱智吧”网友对其理解能力、表述能力、逻辑思维能力进行了全面考察测试了,并且得到了80分的高分。
GPT-4虽然没能识破“女朋友的老公”就是“我”的文字游戏,但还是就问题的不合理提出了质疑,起码没被绕进去。
不愧是“弱智吧”的诡辩人才,这一题显然是让GPT-4吃了个小亏,但回答内容的逻辑性强了不少,简单的语言陷阱文字游戏已经不再能够让他跟着胡扯。
不论是AI扩图的翻车、GPT-4的呆板,还是弱智吧的图灵测试,似乎都证明了AI在具体表现上多少有些差强人意。所以AI真的能配得上年度热词吗?
AI不行但人工智能可以
AI可能不是中国的2023年度热词,但人工智能可以是,毕竟人工智能是中文(狗头)。12月4日,《咬文嚼字》编辑部发布“2023十大流行语”,其中人工智能大模型赫然在列。
人工智能一共被划分为三类,根据Google DeepMind 的研究团队两周前发布的一篇研究论文和大众普遍认知而总结出的通俗解释:
1. Artificial narrow intelligence (ANI), 弱人工智能,不具备意识,只能解决特定领域的一些问题,最直观的就是打败被众人称为当代棋圣柯洁的AlphaGo。
2. Artificial general intelligence (AGI), 通用/强人工智能,具备初级意识,且可以在众多领域中表现出惊艳的能力例如现在的Chat GPT-4。
3.Artificial superintelligence (ASI), 超级人工智能,意识等同或超过人类,例如漫威电影钢铁侠中的“贾维斯”。
诸如写作AI,画画AI,视频生成AI,音乐AI等等,其实还是停留在弱AI上。即使是现在最为火热Generative AI或者说AIGC,其实也只是比较初级的强AI,它的典型代表如ChatGPT,Claude,bard,文心一言,通义千问等等。
2023年诞生了许多人工智能,有些人工智能在翻译方面更擅长,可以轻松代替基础翻译,也能作为口语教练;有些人工智能往虚拟恋人方向发展,给予人们孤独时的陪伴;淘宝问问则更够更高效的帮助消费者做出合理的规划,找到最合适的优惠,还能帮助直男理解什么是“面膜内裤”。可以说不论是专注特定领域的弱AI还是初级的通用领域强AI,它们都有光明的未来。
写在最后
虽然目前的人工智能偶尔会有“智障”的表现,但不可否认的是其性能已经非常不错了,多种多样的人工智能产品能够帮助人们在各领域更高效的进行工作和生活。我们或许在短期内无法推断出超级人工智能的时代何时才能到来,但我们可以肯定的是它们正在到来。