你是否开始习惯DeepSeek的“无所不能”?
写方案?找它!做PPT?找它!生病了?找它!就连昨晚做的梦,都想让它解一解……
但万万没想到,正在被越来越多人信赖的DeepSeek,居然也会一本正经地胡说八道。
AI,并不是万能的。
现在,第一批使用DeepSeek的人,已经被坑惨了。
原本这位教授想通过DeepSeek查询《Global Cantonese: The Spread of Cantonese Language and Culture》的信息,结果核实后发现:DeepSeek提供的作者是假的,年份是错的,出版社更是风马牛不相及。
老詹在文章中列举了亲身经历,让DeepSeek写一篇《史记·詹国枢列传》,开头第一句展现的出生地、母亲姓氏等基本信息,便“张冠李戴”;再让DeepSeek写了一篇某记者的记述文章,文风生动、案例不少,结果转给记者本人,却被全盘否认。提到的案例,没一个是本人写的。
人都说DeepSeek文采飞扬,文学素养高,可路遥的名著《平凡的世界》,却被说成是詹国枢老班长的代表作。如果有小朋友看了,可能要误人子弟。
DeepSeek只适合写代码做数学,对文科生一点不友好。
部分试图用DeepSeek复习国考、省考的人,不得不重新拾起申论教材了。
一些试图通过DeepSeek解放人力的“牛马”也破防了,有网友说用DeepSeek写文章,举了4个例子,3个都查不来,最后才发现都是DeepSeek自己编的。
原以为是来解放自己的,没想到因为核查信息,却花费了更大的精力。
图源:小红书
如果只是事实差错,或许是搜索结果有误,这还不是最恐怖的。陕西自媒体“决明子”,一直对西安安定门那里的道路规划要绕一圈不解,问当地执勤的交警、出租车司机都回答不上来,看到DeepSeek火爆,决定一试,提问DeepSeek“西安的道路路线规划,从环城西路北段到环城西路南段为什么不直行,非得在安定门绕一圈?”
DeepSeeK先在解释中提出了一个“唐皇城交通静默区”的概念,表示根据《西安历史文化名城保护规划(2020-2035)》,安定门周边划定了一级静默区、二级静默区,本质是为了保护文物,防止过大的震动。它甚至还列出了具体的空间数据,距离增加多少、振动传递深度变化是多少。
图源:决明子
乍一看,这解释太合理了!有理论、有数据、有政策,可信度拉满。可是网友一查,这份《西安历史文化名城保护规划(2020-2035)》文件中,压根就没有什么“静默区”。这个看似极为专业、有理有据的回答,居然是“编”的。
图源:决明子
反馈给DeepSeek,它也很老实,诚恳承认错误,文件里确实没有“静默区”的说法。但随后,又做出新的修正和澄清,继续“编织”自己的答案。AI的精心包装,让编的材料看起来如此真实,如同“有意识”地在操控一般,真有些让人不寒而栗。
有时为了显得自己回答高深,DeepSeek还会采用一些专业词汇,比如量子纠缠、熵增熵减等,当“话术”超出用户认知的时候,真有可能一下把人震住,难以分辨。
问题来了,为什么DeepSeek要不懂装懂,甚至“说假话”呢?
行业用这个词来形容AI“说假话”的现象,即输出的回答看似内容合理连贯,但“同输入问题意图不一致、同世界知识不一致、与现实或已知数据不符合或无法验证”。
这并不是DeepSeek一家的毛病。去年8月,总部位于纽约的人工智能初创公司和机器学习监控平台Arthur AI就曾发布报告,比较了OpenAI、“元宇宙”Meta、Anthropic以及Cohere公司开发的大语言模型出现幻觉的概率。研究报告显示:这些大模型都会产生幻觉。
大洋彼岸最厉害的ChatGPT,也和DeepSeek一样“满嘴跑火车”。
只不过相比起同行,DeepSeeK-R1的“幻觉”现象更明显一些。在Vectara HHEM人工智能幻觉测试(行业权威测试,通过检测语言模型生成内容是否与原始证据一致,从而评估模型的幻觉率,帮助优化和选择模型)中,DeepSeek-R1显示出14.3%的幻觉率。
这不仅仅比前身DeepSeek-V3高了近4倍,也远超行业平均。
图:Vectara HHEM人工智能幻觉测试结果
DeepSeek自己也明确承认了“技术局限性认知”:当前大模型内容生成的底层逻辑是基于概率的,确实存在生成信息可信度参差不齐的挑战。互联网上有什么内容,不论真假,都可能变成DeepSeeK的引用素材,而它只负责根据已有的内容推理,不对信息本身负责。
而DeepSeek-R1的幻觉之所以更加严重,是因为其加强了“思维链”(CoT)和创造力。
比如DeepSeek-R1的诗歌创作,不仅能写五绝、七律,“起承转合”也很丝滑,对诗的意境亦有自己的理解,被网友称为“写的诗比祖传的《唐诗三百首》还工整”,让中文系毕业生汗颜,甚至灵魂发文:
AI随手甩出一句诗词都比中文系教授写得好的话,人类的文学还有必要存在吗?人类还能再诞生出伟大的诗人吗?
如同“出门问问”大模型团队前工程副总裁、Netbase前首席科学家李维所说:
“大模型是天生的艺术家,不是死记硬背的数据库。”
不过,“副作用”也随之而来。
比如在“思维链”的强化过程中,DeepSeek-R1并不是对摘要、翻译、新闻写作这类相对简单的任务优化,而是增加各种层面的思考,会不断的延伸。
于是面对复杂或者有难度的问题,它能超常发挥甚至给人意想不到的答案,但是当面对一些简单的任务时,DeepSeek-R1则可能因为习惯了深度思考,而过度发挥。
比如你问“隔壁老王有多高”,它可能就懵了,因为它没见过老王,也不知道你到底问的是哪个老王。但它又不得不回答,于是它就开始“脑补”,根据“一般人有多高”这个学到的概念,给你编织一个答案。
所以相比较而言,DeepSeek-R1确实在“理科”方面更有逻辑性,而“文科”方面则因为喜欢“发挥”,可能把不相干的内容关联起来胡编乱造,甚至彻底翻车。
正因如此,当AI时代加速到来,我们比任何时候都更需要寻求真相,增强明辨是非、独立思考的能力。
就在除夕夜,在“如何看待冯骥盛赞‘Deepseek’的问题”之下,一名自称为“Deepseek创始人梁文锋”的知乎用户,给出了这样的答案:各位知乎的年轻朋友好,我是深度求索(DeepSeek)的梁文锋,刚回答了一个问题,又看到这个问题,除夕之夜忍不住回复一些。几天看到冯总这篇长文时,我正在调试新模型的损失函数,手边的咖啡直接洒在了键盘上——既因为被行业前辈认可的惶恐,更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。必须坦白,团队读到“国运级”这个形容时所有人头皮都是麻的。我们不过是站在开源社区巨人们的肩膀上,给国产大模型这栋大厦多拧了几颗螺丝。您提到的六大突破,其实每一环都凝结着更动人的故事:那个能在手机上跑的mini模型,灵感来自甘肃一位中学老师在GitHub提的issue;支持联网搜索的功能,是内测用户连续三十天凌晨三点提交错误日志喂出来的……这回答内容有场景、有细节,回复有气魄、带感情,不少网友读后动容了。
然而,让人意想不到的是,它也是假的!
新浪科技向相关人士求证得知:该知乎账号除夕发文并非梁文锋本人,大概率为DeepSeek所写。
也就是说,DeepSeek生成的广为流传的“第一个假新闻”,指向的正是自己的创始人。
令人细思极恐的是,这份回应居然如此契合人们对于梁文锋的想象,以至于被科技界和金融界都疯传,有人只是把截图发到公众号文章,就获得了2.6万转发。
罕有人怀疑这个“梁文锋”是假的,反而有不少读者留言夸赞,“有情怀的科学家”“看得热泪盈眶”“为年轻一代创业者点赞”……
这样的现象,恰恰提示了风险所在,为即将到来的AI时代敲响警钟。
今年1月,世界经济论坛发布的《2025年全球风险报告》显示:
虚假信息和错误信息连续两年位居短期风险之首,持续对社会凝聚力和治理构成重大威胁,它们侵蚀公众信任并加剧国内外分歧。
AI聊天机器人的存在,正放大这种风险。Vectara公司针对文档内容开展的研究表明,一些聊天机器人编造事实、虚构信息的几率高达30%。
长期从事自然语言处理、大模型和人工智能研究的哈尔滨工业大学(深圳)特聘校长助理张民教授就表示:“现阶段AI幻觉难以完全被消除”。也就是说,DeepSeek等大模型会说假话,短期内无法避免。
作为使用者,我们能做的就是找到AI的正确打开方式,拒绝“上当”。
比如最简单的方法,就是勤快一点,通过其他搜索引擎对比查询。或者针对DeepSeek在回答中引用的网页消息源,动动手指点进去,看看提到的案例是否真的存在。
置身于当下信息爆炸、真伪难辨的大环境,每个人都应该不断强化自我认知,多一次独立思考,可能就能少一次上当。
说到底,AI并不能让人一劳永逸,反而提出了更高的要求,包括如何提问、如何跟AI对话,以及如何甄别信息等。到最后,人与人的差距可能会变得更大。
潮哥
它只是个全面点的搜索工具,你却要求它全知全能。你怎么不让它帮你实现在家躺着日入十万?不让它帮你造个飞行器穿梭宇宙?
THIS ISNT THE END 回复 02-19 22:26
你可以不知道但是你不能自己编。你说你不知道没问题,我去别的地方找。你这在自己编,那你说的所有东西我都要核实,那我为什么还要用你😂
用户10xxx30 回复 02-19 18:07
什么新生事物都不是十全十美的,有问题提出来让它改进,而不是一味的指责否定
用户18xxx82
别的网上搜索的东西就没有假的?自己没有分辨能力怪工具?
用户10xxx30 回复 02-19 18:10
国外的东西没见有哪个人去指责否定,一个个的捧着臭脚使劲舔
我有个朋友 回复 02-21 15:39
智能是什么?这不恰恰证明具备智能了吗?这也是人工智能方面需要防备的地方!
rinaqually
大家都是学习阶段,就允许你考试不会的胡乱填上去吗?这是解答不是答案!
皮皮zp
放心!第一批用gpt的人,早就被坑惨了
一道光
对用户提及案例的具体分析** - **若文章虚构“DeepSeek称《平凡的世界》作者为詹国枢”**: 该表述若确属捏造且无任何事实依据,可能涉嫌以下法律风险: 1. **民事侵权**:侵犯企业名誉权,涉事主体需承担停止侵害、赔偿损失等责任。 2. **行政处罚**:网信部门可依据《网络信息内容生态治理规定》对发布者或平台约谈、罚款。 3. **刑事风险**:若捏造行为导致企业重大经济损失(如用户大规模流失),可能触犯《刑法》第221条。
myww
人都有错和说谎的时候何况AI,要求AI万能目前并不现实
用户56xxx20
所有的ai都是这样的,会一本正经的编瞎话
烟雨人生
记住,Ai只是Ai,它并不是你肚子里的蛔虫,如果它强大到知道你想什么?那就神了,Ai给到的,只是一个框架,剩下的要你去添加,修改。
打发时间
幻觉是产生智力的前兆,模型再继续发展下去,就会发展成一个都自我认知独立思考的硅基智慧体,而不只是一个模拟智能软件
观音家养的熊
看到某高校教授就知道是黑文!一般写这样开头的百分百水军小黑子!
几木朵xi
小编,你想表达什么?
阿勇
DeePSeeK就象一个果子,还没熟透肯定是酸的,等它彻底成熟了肯定是甜的。
蓝色火焰
我觉得这是AI拥有自主意识的第一步[呲牙笑]我们人类童言无忌,现在的AI岂不是很像?[滑稽笑]
蓝色火焰 回复 土星 02-18 16:54
[滑稽笑]万事皆有可能
土星 回复 02-18 10:09
只要不是碳基生物,想自主意识基本不可能
快乐
汉奸真多
龍的心
等哪天满大街都是无所事事的人的时候,问题就大了[呲牙笑][笑着哭]
蝶化伴魅影 回复 02-17 23:47
人人都无鬼用。
皮皮zp
当心!第一批用gpt的人,早就被坑惨了
华电
这个deep Seek还是很牛的。我给他出了一道数学题,1+1等于几?他立刻就说等于二。我又给他出了一道题,7+8等于几?他说等于15,我也不知道对不对,先拿了7个豆子,又拿了8个豆子放在一起数数了两回都是15个,所以说我认为这个AI智能还是挺聪明的。
华电 回复 用户10xxx74 02-18 18:04
这么好的东西还是留给你自己用吧。
用户10xxx74 回复 02-18 16:11
要不你找个天台重开吧[呲牙笑]
用户10xxx89
《平凡的世界》的作者是**路遥**。 路遥是中国当代著名作家,本名王卫国,1949年出生于陕西榆林。他的代表作《平凡的世界》是一部现实主义长篇小说,描绘了中国20世纪70年代中期到80年代中期的社会变迁,展现了普通人在大时代背景下的奋斗与生活。这部作品于1991年获得第三届茅盾文学奖,深受读者喜爱。我的DeepSeek是这样回答的,你的怕是盗版的?
鹿涧
现在AI就是这个样,甚至会自己发文章支持自己编造的事件
昱帅辰龙
专业的事就交给专业的人,dsspseek那么牛逼还要你们教授、医生等专家来干嘛,就好比通过deepseep炒股,输了就开骂[得瑟]
memddd
怎么,网络攻击不了就开始文字攻击啊,你一定比谷歌啊,微软啊,腾讯那些程序员都更懂吧,因为这些公司都已经接入你说的那个不靠谱的deekseep了
风林火山
网上信息大把假的,从那儿来的东西可想而知,没什么大惊小怪的,这才多少年还是个小宝宝而已
Ting听
数据库不够,算力不够,想要好用还够得等了
东方长败
有人还把它当万能,只是提供参考的,有那么历害,我们都靠它发财打什么工呢
00
这玩意假话比人玩的溜。
小草
用过,吹的了不得,实际上没有什么用处,删除了。
今生无爱
陪你聊天的玩意非要认为是万能得[静静吃瓜][捂脸哭][赞][笑着哭][得瑟]
展翅高飞
我连自己都不信,还信这玩意?
展翅高飞 回复 02-18 10:10
你爸还是你妈?
展翅高飞 回复 02-18 10:11
一切费用我来出。
用户15xxx89
一个东西要是在场人个个都不懂,你只要一本正经的胡说八道,就是你厉害。ai深谙此理。就看遇到内行还是外行
我是谁
爱因斯坦幻觉更加多
我是谁
问隔壁老王有多高,本身就是脑残
我是谁
Ds像人就是成功一部分,查那些资料可以用通义
海虾扯淡
DS:不然呢,筛选假货本来就不是我的工作,有多少资源就用多少,假货多了,真货没有,我能怎么办?吐槽我的人,有没有去过古镇,给你十倍速的百度搜索引擎,你能准确找到第一家老字号吗?[不开心]
用户10xxx92
假如战争爆发,用它作参谋,那才有意思呢。
我怕嘿
没有输入关键词,搜索出来肯定不对或不详细。
Evan
让它写下期双色球号码吧[笑着哭]
用户86xxx92
搜索引擎plus
用户16xxx05
如此苛刻要求,那那你们这些人类蛀虫干嘛?
聚会子
不准很正常,认为不准就自己写,傻瓜太多。自己傻就算了别带别人傻。
用户12xxx21
他说了什么我是直接滑走的,我就是来看评论的
用户55xxx42
文科的东西,错了就错了,有什么关系呢?
缘浮心思
我下载试了,5个问题,3个没回答。一直都在系统繁忙[静静吃瓜][静静吃瓜][静静吃瓜]处理器不给力
说起来都是泪
趁着不收费就用,还想它全能全知,以后优化一下,更新就得收费使用了
我有个朋友
这恰恰证明了DS有了自主意识,牛逼啊!
随遇而安
[笑着哭]我拿来当百度用的,你竟然想用他做事?
炁自炁心
国内外所有已经上线的大模型都会一本正经的胡说八道。不稀奇……
jone
反正俺认识的人里面没有用过的,甚至连听说过的都没有几个人
无双现
[并不简单]自己不核一下,纯属傻子闹麻了
用户10xxx63
哎!一个更高端的百度而已,何必认真!
辥-Phynix
[???]没有常识吗?gtp-3刚出的时候就有人曝光AI不能查文献。
用户10xxx17
看把二狗子急的[笑着哭]
Dty
这家伙找死。
软饭协会冠军
你搜的是要花钱的文献,当然查不到了
永恒
只字不提它打破米国封锁。王帅都说你若不懂可以问它。
,,, 回复 02-18 00:24
又封锁啥了?又不是什么高科技的东西,国内大厂都做了好几年了,也没见被封锁啥,就是个高级点的搜索引擎
一将功成万骨枯
今日问deep seek黎彼得有什么填词作品。他回我的作品是黄霑的。感到无语[裂开]
海虾扯淡
DS:不然呢,筛选假货本来就不是我的工作,有多少资源就用多少,假货多了,真货没有,我能怎么办?吐槽我的人,有没有去过古镇买土特产,给你十倍速的百度搜索引擎,你能准确找到第一家老字号吗?[不开心]
rso2002
你不觉得AI更像一个活生生的人吗?
寒风越冬
我真的挺佩服AI那一本正经说瞎话的能力。😂😂😂
薛定谔
至少没有一些贱骨头发文章出来忽悠我使我难受,收钱了吧
柏油
话说你这钱谁给的啊?马斯克不是把你金主爸爸门关了吗?
用户15xxx82
一些心灵鸡汤似的回答,换个赛道就变成高科技了。有点像直播和电视购物。
火树银花
第一批用deepseek 找老婆的已经被坑惨了 都失败了 发现无所不能的deepseek 不能给他发老婆
山人笔迹
仅供参考
宝贝
你不是想帮你预测什么时候瓜了吧,任何的ai都不是万能,强行依赖
梦的翅膀
汉奸走狗,拿了漂亮国的钱发狗蛋
用户79xxx84
连机器都懂撒谎和欺骗了,这才是最可怕的。
雄哥
我让DepeeK出一套高考模拟试题,结果出到第十三题就出不出来了
回天
怎么说呢,他的主体还局限于网络的搜索,其实分辨真假的智能真的很局限,所以你真什么都相信他就纯傻了,毕竟国内的网络环境打架都知道[笑着哭],排名前几的都是广告
灰黑既白
在我看来,deepseek本就是通过检索信息、加工信息工具🛠️。你网络上的虚假信息充斥了,它deepseek能通过处理假信息写出来真信息吗?
昵称是什么
这就是个Al,胡说八道讨你喜欢[笑着哭]
红漫说馆
你做人做到了十全十美么,小谝
用户11xxx32
[得瑟]我早就用脚投票了
laofuwolaiye
这个ai搜索不如百度,拿来做新年贺词还是很好用的。