这段时间DeepSeeK的火爆全球是毋庸置疑的,只要同DeepSeeK牵扯上概念的任何行业都成了资本狂热追逐的对象,社会也成了仿佛不谈几句DeepSeeK就已经过时了的地步。
可DeepSeeK真的有那么神吗?为什么一个让美国硅谷大佬们纷纷高呼狼来了的大模型会经常出现常识性的错误呢?
这事儿还得从网友老詹让DeepSeeK写的詹国枢传记开始说起, 没想到本来有些玩闹性质的测试却硬生生的把DeepSeeK的硬伤给测了出来。
如果不知道事情的来龙去脉,单从DeepSeeK文章来看,这一篇《史记·詹国枢列传》写的还是不错的,至少字里行间的史记味儿特别浓,堪称一部现代版的荷马史诗。
但仔细读一下文章内容,事儿可就慢慢有点不对了,开篇第一句话是:詹国枢,巴蜀泸州人,共和癸未年生,少孤贫,母陈氏以浆洗供束脩。
这短短一句话愣是错了两个关键点,网友根本就不是泸州人,母亲自然也不是什么陈氏。
剩下一篇文章洋洋洒洒数百字,更是漏洞百出没什么实际内容,但这只不过是DeepSeeK出现幻觉的一个缩影而已,这段时间已经有多名网友反应,DeepSeeK在进行文章写作时,非常容易说假话。
DeepSeeK的有篇文章把从未上过大学的杨乔生生捏造成了中国人民大学的高材生,至于金婚和糖水杯之类的描述更是让人哭笑不得,或许是为了文学修饰,文章里竟然出现了“翻出珍藏的糖水杯”这样的桥段,让人哭笑不得的同时,对DeepSeeK也产生了些许质疑,就凭这种文字水平,DeepSeeK凭什么让那些硅谷的IT大佬们破防呢?
为了验证DeepSeeK的有效性,网友又开始了对DeepSeeK的调教,让它写一篇对老班长朱大建的介绍,结果又是张冠李戴,把著名小说《平凡的世界》的作者都扣在了朱大建的头上,这种错误犯的实在是有点无厘头了,或许是在写作的最后发现了错误,DeepSeeK还有些亡羊补牢的加上了一句“虽然并非本人所著”。
被人奉为圭臬的DeepSeeK那就这个水平吗?这玩笑开得实在是有点大了吧!
从技术的角度来讲,DeepSeeK为何会屡犯低级错误?难不成AI在发展的初级阶段,就已经学会撒谎了吗?
如果这是大模型的弊端,那我们还可以将主要工作交给大模型吗?如果现在的大模型连明辨是非的能力都没有,相对复杂和严谨的工作放心的交给DeepSeeK呢?
如果将责任全部推到DeepSeeK头上就实在是有点强人所难了,其实这种撒谎的现象是AI的通病,按照专业点的叫法,这叫幻觉!这在普通人看来就是胡说八道。
不管我们向大模型提出什么问题,他们几乎都可以不假思索的给出我们一个煞有介事的回答,但是这些回答很有可能没有任何依据。
DeepSeeK这么火,自然逃不过权威机构对其的测试,在最近的一次测试中,DeepSeeK-R1的幻觉率高达14.3%。
这也就几乎封死了DeepSeeK进行高精度工作的可能,100句话有14句是纯属虚构的,这种不靠谱的概率也实在太高了,虽然DeepSeeK-R1的推理能力看上去十分靠谱,但它的幻觉率却比前代版本V3高了近四倍,远超行业平均水平。
先不管AI出现幻觉的原因,至少我们在使用AI进行工作时一定不要丧失自己的判断力,更不能将AI看上去极为靠谱的回答当成是教科书,AI是真的可能胡说八道的!
但AI为什么会有幻觉呢?从根本上来讲AI模型的学习方式跟我们人类还是完全不同的,人类之所以在学习的过程中不断纠错,是因为我们拥有逻辑推理能力,将逻辑推理和事实验证叠加之后,就可以排除掉许多冗杂错误的信息,来确保信息的准确性。
可AI虽然看上去十分聪明,但严格意义上来说它是没有智慧的,生成内容靠的是概率和统计,所谓的训练数据只不过是让大模型在快速处理数据的过程中,根据概率来预测最可能的回答。
当大模型在学习的过程中遇到一些模糊或未曾见过的事实时,AI的硬伤就出来了,它会根据已有数据的大致规律去编造,有那么点盲人摸象的意思,只要从语序上符合逻辑。
AI就可以煞有介事的说出来,这个人类的猜测有点类似,只不过这些文字在被AI包装了之后,看上去更加专业了而已。
可DeepSeeK的最新模型主打的是推理和泛化能力,明明可以煞有介事的推理了,为什么反幻觉率反而比前代更高了呢?
这就是思维链和创造力训练带来的反效果,思维链虽然模拟了我们的思维导图,也可以根据一个问题推导出一连串的思考,但是仅限于进行推理。
既然是推理就一定会出现多种思维链条,如果思维链条出现偏差,将会导致推理过程越走越偏,幻觉自然也就越来越多了。
特别是专业文字写作或者对于事实认定必须严谨的工作来说,模型很容易在推导过程中将自己带入死循环,胡编乱造也就成了必然!
不过可千万不要把AI的幻觉看成是短板,在很多需要创造力的工作中,幻觉反而成了优点。
比如说小说写作,天马行空的推导过程很有可能会碰撞出更加精彩的情节,所以说技术本没有错,只是看要把它用在什么方面而已,而且幻觉是现阶段大模型的通病,就算是chatgpt4o也没办法完全解决胡说八道的问题。
虽然chatgpt4o在幻觉出现的概率中做的要比DeepSeeK好上不少,但至少openAI在现阶段还是没有办法来解决这个问题的,不过在我看来,AI的创造力和幻觉是硬币的两面,虽然给我们带来了不少困扰,但有时候那些天马行空的创意也会让人感觉心中一亮。
不过DeepSeeK这么不靠谱,为什么还能在全球引发这么大轰动呢?现在的几乎已经成了AI界的一哥,R1的日活用户已经突破1500万,是很多国家应用榜单的第1名。
一个幻觉概率这么高的大模型,真的有必要让全球如此疯狂吗?
DeepSeeK如何搅动全球AI江湖对于我国来说,就算DeepSeeK现在有幻觉的顽疾,对于整个国家的AI产业来说,也是突破性的。
之前AI大模型领域的主导权可是一直被攥在欧美几大科技巨头手里的,OpenAI、谷歌和微软轮番上阵,你方唱罢我登场,西方国家在大模型方面的技术优势,也成了他们想要遏制我国发展的工具之一。
DeepSeeK的横空出世直接打破了这一局面,不光但我国在这方面看到了突破的曙光,也成了我国首个登上全球AI舞台中央的模型。
对比与DeepSeeK的其他炸裂能力来说,幻觉真的只能算是小问题,DeepSeeK模型无论是在数学推理、代码编写还是自然语言处理上,都追平了OpenAI。
由于是本土模型的原因,DeepSeeK对于中文的理解能力比那些外国洋和尚高上不少,至少字里行间的外国味儿没那么重了,所以国内开发者们如此推崇DeepSeeK的原因更多的是这一大模型的出现让我国的AI圈儿里看到了更多的希望。
再就是DeepSeeK的成本控制做的实在是太恐怖了,大家都是大模型,欧美巨头们动辄几十亿美金的狂轰滥炸,硬生生的在金元策略的基础上将大模型给堆了起来。
DeepSeeK则上来就是一个王炸,硬生生用了不到600万美元的资金打造出了一个许多能力可以同chatgpt4o相媲美的竞品模型,如此低的成本控制让DeepSeeK在售价方面的优势实在是太强了,API定价不到OpenAI的三十分之一,如此便宜又好用的模型自然受到了业界推崇。
所以那些硅谷大佬们担心的并不是DeepSeeK在技术上的突破,这些人纵横全球互联网界这么多年,这一点技术自信还是有的,他们担心的是DeepSeeK的价格战策略将它们拖入恶性竞争的泥潭,最终不得不在DeepSeeK的逼迫下赔本赚吆喝,这才是他们不愿意看到的事实。
更让这是大佬们挠头的是DeepSeeK选择了开源,之前大家对于自家的大模型技术都是敝帚自珍的,生怕其他竞争对手通过自己独有的技术路线实现弯道超车。
所以DeepSeeK的行为是打破行业惯例的存在,这也是DeepSeeK能够在极短的时间内积累大量粉丝的王牌计策。
那DeepSeeK的未来就已经高枕无忧了吗,其实我觉得DeepSeeK想要走出未来的路还有不少问题需要解决,幻觉就是其中的老大难问题,虽然从技术的层面来讲可以理解大模型胡编乱造的现状,但是理解归理解,在实际工作中有很多场景是不希望这些幻觉产生的。
可是在当前的技术架构下,想要将幻觉问题全部清理干净的可能性并不大,虽然其他的模型也会出现幻觉的问题,但DeepSeeK幻觉的出现率着实是有点高。
如果一天不将这个问题解决,DeepSeeK继续延续成功一定是有风险的,这种幻觉是十分容易丧失客户信任度的,一旦DeepSeeK不靠谱的认知成为大众主流,那DeepSeeK基本上也就没有未来了。
结语不管怎样,DeepSeeK都是我国第一个能够真正走上世界舞台的大模型,还是希望他能够在这条路上继续延续现代的传奇。
还是那句话,模型不能只靠脑补,还得有据可依!希望未来的DeepSeeK靠谱一些,至少别再闹出一些让人哭笑不得的笑话了。