顶级阳谋,DeepSeek公开算法模型的底层逻辑,美国看后望洋兴叹

千秋过往 2025-02-15 16:50:32

美国各大顶级公司的AI模型生成式团队孜孜不倦地熬夜奋战,穷其洪荒之力试图破解DeepSeek算法密码之际,深度求索(DeepSeek)公司突然公布了其算法模型的底层逻辑,这让美方始料未及。

对任何一个AI模型而言,底层逻辑和算法密码是其核心技术和竞争力的核心。美方是诧异和疑惑,一度认为这是DeepSeek的“迷踪拳”,释放出来混淆视听的。

但很快,美方技术人员和工程师按照这套公布的逻辑和算法进行匹配后,发现DeepSeek并没有说谎,全部是实打实的数据,但面对对手送出的大礼,美方人员却没有任何兴奋之情,反而陷入了尴尬,面面相觑。

一名技术人员感慨道:“这是先天优势,降维打击啊?”另一个技术人员道:“难怪深度求索(DeepSeek)大模型仅用1/3参数量就能碾压我们的GPT-4”。沉默半晌,一个灵魂拷问的声音响起:“这样的底层逻辑我们还能或还敢跟吗?”

要想了解令美方人员感慨的深度求索(DeepSeek)的底层逻辑,不得不先说一下这些年来硅谷公司出现的一个新职位——产品命名师。

这个职位的由来和一款“可穿戴脑波监测设备”有关。2014年,一家硅谷科技公司的研发团队率先推出这款产品后,在产品命名上一筹莫展,为此他们特意招聘了一些创意人员。最终,在经历了37次头脑风暴后,诞生了这款产品的新名词和一个全新的英语词语“NeuroSync Wearable Cognitive Interfaceicon”。

常人念完这句话需要换气三次,且不知所云,需要看详细的产品介绍方能理解。而不久后,他们远在深圳的中国同行直接在立项会上就拍出"智盔"二字——这是智能头盔的简称。

如今,产品命名师在硅谷已成为科技公司的必配岗位,在这个新岗位背后是英语科技词汇量以每年11%的增速膨胀。

现代英语单词的词汇量已经超过百万,普通人一辈子也记不完。OpenAI的工程师曾半自嘲半抱怨地说:“训练GPT-5最耗时的不是算法优化,而是教会AI理解各种新兴词语,为了让AI理解这些词语的意思,工程师不得不进行海量备注。”

这个现象背后的真实原因是英语单词之间没有任何关联性,难以进行简化扩充。英语里面自行车、小轿车、小货车、货车(Bicycles,cars,van,trucks)都是车,却是截然不同的单词;又如公鸡是cock,母鸡是hen,小鸡是chicken,鸡的一家子之间却毫无联系,从单词上也无法看出公母和大小。

在这个信息爆炸的时代,随着科学技术、新型行业的发展和创新,元宇宙、区块链等新概念的提出,各种新材料,新产品、新名词、新叫法层出不穷,英文为了维持这些信息量只能不断地暴力扩充词库,形成英语学习里最难理解和学习的专业英语。

相对而言,汉语基本不必发明新汉字,仅仅依靠原有的汉字组词就可以了。《大英字典》里上百万的英文词汇,中文只需要四千个汉字就能全部表达。例如飞弹(missile),自慰器(Masturbator)等,英语都要产生新词,汉语则无须如此,组词就好了,不就是会飞的巨型子弹,会自己慰藉的小机器吗。

你问英文可不可以组词,当然也可以,但用英语造词组词那就太长了。例如飞弹将成为“Flying-bullet”,自慰器成为“Self-comfort-equipment”等。这些忍耐一下还行,看看新冠疾病的英文缩写,它的英文全称是coronavirus infection disease,这还是第一个单词是新造的,若不是新造的,长度至少再加一倍。

这让世人突然感觉:英语好笨哦,中文好棒哦。然而你可知,曾经在很长一段时间里,中文遭到口诛笔伐,差点被废弃。

20世纪初期,甲午战争,满清惨败,全球瞠目结舌,弹丸之地打败了泱泱大国,全球开始热议一个议题:“中国为什么会落后?”美国著名的学者约翰·杜威和英国的罗素研究后,说:“中国落后的主要原因是人口过多,负担重,抵消了一切的努力和成果”。

中国知识分子在分析了“人机料法环”,抠破脑袋后也得出了一个结论:“中国失败的原因是文盲太多,不利于推广新技术”。这些人沿着这条线继续深挖,最后找出阻碍中国进步的元凶祸首是汉字。文盲多是因为汉字太难学了,有“三多五难”的缺点:“三多”是字数多、笔划多、读音多;“五难”是难认、难读、难记、难写、难用。

这在当时“病急乱投医”的救国浪潮中很快形成共识,包括陈独秀、刘半农、瞿秋白、鲁迅、蔡元培等民国精英都成了废除汉字,改用拉丁字母的坚决拥护者。鲁迅甚至痛心疾首地呼吁:“为了保存汉字,难道要让十分之八的中国人做文盲来殉难”,“汉字不灭,中国必亡”,“到底为了汉字而牺牲我们,还是为我们而牺牲汉字呢?”瞿秋白将汉字比喻为“僵尸”,说:“汉字真正是世界上最龌龊最恶劣最混蛋的中世纪茅坑!”

他们认为正是“汉字的艰深,才使全国大多数的人民成为文盲,和前进的文化隔离,无法理解自身所遭受的压榨,理解整个民族的危机。”

这种氛围之下,全国掀起了废除汉字热潮,这个过程中又分为两类,一类是拿来主义,直接使用英文或俄语;另一类是改革汉字,发音等不变,只是书写方式改为拉丁语。幸好国民政府“人间清醒”,严厉查禁拉丁化运动,结果当时的文化界还将此事定义为国民党“反革命”的罪证之一。

看到中国“如火如荼”的废除汉字运动,苏联和美国出于扩大自身影响的需求,积极响应,苏联公开号召:“采用罗马字也是民主主义革命的一部分”,于是朝鲜废除了汉字,中国这边也闹得凶,要不是后来跟苏联翻脸,说不定改拉丁文的事就搞成了。

美国对其控制的韩国和日本,也要求立刻开始禁止汉字,日本在这方面态度还算温和,半推半就。韩国这边,总统朴正熙是把汉字废除当作“投名状”,不仅成立专门的“汉字废止会”,还强行将国内所有的汉字招牌全部替换,否则严惩不贷。

很长时间里,偌大的韩国只有3所大学开设中文系。但令人回味的是,朴正熙的长女,后来的韩国现任总统朴槿惠,个人介绍专栏是“精通汉语,喜欢中国哲学。”

汉字的废除争议在上世纪50年代到80年代基本消停了,但到了90年代,随着互联网和个人电脑的普及,汉字又遭遇了一次科技革命的“生存危机”。电脑键盘是按拉丁字母设计的,汉字笔画多,同音字多,难以输入,因此有人断言:“中国将因为汉字而被互联网浪潮所抛弃。”

所以在90年代初期,废汉字的呼声再次达到了高潮,各大高校中汉字的必修被改为选修。现在想来,这完全是一种本末倒置的说法,简直是“鞋不合脚,宁可切脚,也不换鞋”。汉字不能适应电脑的操作,我们就改良电脑啊,而不是废除汉字。汉字已经存在了数千年,电脑不过是近几十年才出现的一个科技产品。

2010年后,随着汉字输入法的智能匹配和习惯用语自动提示,大幅度简化了汉字输入,尤其是中国国力的蒸蒸日上,国民自豪感增加,全球掀起汉字热,汉字在近代第一次“昂首挺胸。”

但在计算机技术上,西方在所有的编程上早早建立了由拉丁字母形成的护城河。虽然国人一直在寻求汉字的电脑化,但由于用汉字编程后不能直接使用,需要由编码器转化成汇编语言。

这属于脱了裤子放屁,而且在这个过程中,由于汉语的博大精深,编码器转换时词义容易出现误差,比不过使用英文字母直接输入的准确,所以汉字在计算机编程上一直属于“二等或三等”公民。

但如今随着AI时代的来临,这是一个不需要每个字母单独敲入的时代,汉字异军突起,不再只是沟通工具,而是成了文明演化的超导体,一跃成为中国AI碾压西方的底层逻辑和密匙。

英语世界因为单词量正在陷入AI困局,牛津词典每年被迫收纳4000+的新词,芯片内存被海量字符吞噬,造成西方AI公司每年不得不因为新产生的单词量而扩充服务器。

这个时候汉语优势尽显,只需要重新组几个词就好了,AI 模型用英文要掌握上百万的单词,而改用中文只需几千个汉字足矣。《新华字典》收录了13万词汇,核心构件始终是3500个常用字,谁优谁劣一目了然。

这种优劣的直观体现,尤其表现在AI模型的自主思考和深度学习上。英语单词无法通过字面意思理解,这让AI的自我深度学习都犯难,不得不进行人为干预,对每一个单词进行备注,英语的“博大”正在成为AI发展的阻碍;中文恰恰相反,因为“精深”,言简意赅,教会AI理解几千单个字的意思,后面就能自己理解词语的意思。

所以GPT-4的训练成本才会如此之高,26个字母无法做到有效联动,需要加倍的海量计算、检索运行……GPT-4一次训练的能量消耗高达2.15亿度电,相当于3个三峡水电站日发电量。这正是英语单词先天不足的机制造成的。

西方技术人员研究发现,中文字的原理天然适配神经网络分布式表征。在中文的机制中,每个字如同单个神经元,思考时能快速联动、自由组合、弹性十足。GPT-4模型的生成式团队在破解DeepSeek后发现,DeepSeek模型的底层逻辑中很大占比就是AI技术的汉字化,DeepSeek仅仅凭借3500个汉字就实现了量子纠缠的算力,让模型参数效率产生指数级提升。

经过比较,中文相较于英文能节省43%的神经认知资源,在增加27%算力的情况下,反而能节省18%能耗。

可以说,在AI模型的运算上,汉语只需排列组合就能实现对英文的降维打击。这也是DeepSeek敢开源和公布算法的底气和“阳谋”,美国想有样学样击败DeepSeek就只能使用中文,而美国一旦在AI模型上使用中文,整个AI发展将进入中文时代,这是美国不愿意、不能也不敢跟进的。

Deepseek利用中文的底层逻辑,辅以算力密匙,告诉全世界一个事实,在AI模型上算力不是唯一,世界上很多芯片可以替代英伟达。这完全是杀人诛心,瓦解了英伟达好不容易建立起来的cuda体系。

一个很有意义的现象是Deepseek的横空出世,全球科技巨头开始组织研究人员集中学习和理解中国的“道法自然”。特训后,谷歌的技术人员将“阴阳平衡”原理写入数据中心温控算法,替代以前的固定温控,将能耗直降12%;西门子用“五行相生”原理优化工业物联网,实现硬件的相辅相成,让设备寿命延长23%。

全球科研人员发现这些来自《周易》的古老智慧正在变成破解复杂系统的万能钥匙,让西方科技巨头大感震撼,高呼太有意思。

这种情形下,不知不觉中,中国已经走到了前面,因为能玩转《周易》、《易经》、《奇门遁甲》……这个世界除了拥有5000年底蕴的中国,还能有谁。

26 阅读:2565

评论列表

主场

主场

6
2025-02-21 13:51

中文将会是这个新世纪时代的标志。新世纪进入ai时代,中文将主导ai人工智能!新世纪由中国领头[点赞][点赞][点赞]

烟月山风

烟月山风

5
2025-02-19 17:04

飞弹是港台用语,不如大陆的导弹确切,有点反感这个举例

Evander Holyfield 回复 02-20 12:33
飞弹只是说明能飞能攻击,但是导弹则明确了能够引导,精准攻击。所以中国汉字类似于神经元一样,确实有优势。

龚建华

龚建华

2
2025-02-19 17:31

此文讲解了ai产品背后的文化、语言逻辑关系,通俗易懂,大有启发。

塞上风光

塞上风光

2
2025-02-21 08:58

谦虚一点,别有点成绩就自嗨

我独行有谁共鸣

我独行有谁共鸣

1
2025-02-22 12:01

老祖宗早就給我们安排了智慧密码[得瑟]

宇宙骑士vs深蓝

宇宙骑士vs深蓝

2025-02-22 12:53

鲁迅有说过要废除汉字吗?鲁迅先生用笔做武器,写英语日文你看得懂吗?

千秋过往

千秋过往

感谢大家的关注