英语不好的看过来啊,你们有福了。因为很可能未来的AI世界里,更多的人要学中文,不说英语了。
最近美国的AI实验室越来越发现,美国AI模型之所以算力需求很大,一个重要的原因是他们的训练素材是英文的,而英文它就是个无底洞。
比如说“心”,它的英文是heart,“病”的英文是disease,但“心脏病”却是cardiopathy,跟心和病没有半毛钱的关系。猪的英文是pig,肉的英文是meat,但猪肉却是pork。
但你要是换成中文,“心脏”加“病”,“猪”加“肉”。你只要懂得组词的两个字是什么意思,你就知道连起来它是什么意思。
现在英文按这个逻辑,每年要新增一万多个新词,而且基本上都和旧词没什么关系。而英文学这些玩意儿就是“心”是“心”的文本,“病”是“病”的文本,什么意思?
但中文就简单多了,它就是个常用字,就像是乐高积木,“心脏”加“病”是“心脏病”,“脑”加“机”是“脑机接口”,“无人”加“机”就是“无人开的飞机”、“无人机”,谁都能理解,对吧?
所以为什么中国模型能节省训练成本,很可能这也是原因之一。这场AI的算力对决,在秦始皇书同文、车同轨的那一刻起,可能就预示了最终的结果。
现在你可以理解为什么所有的美国公司都本能地觉得要依靠堆算力才能发展AI,因为英文的工作环境,工程师发现随着科技的进步,英文每年新增专业词汇越来越多。
据不完全统计,英文每年新增的词汇量是汉语的7.3倍。联合国的文件用5种语言正式书写,最薄的那一本一定是中文。
据说有一个名场面,工程师让AI学习18世纪的纺织机原理。18世纪的纺织机英文叫spinning Jenny啊,这个珍妮纺纱机、旋转的珍妮。
工程师绝望地发现,这个词和当代的纺织术语没有半毛钱关系。AI当然也就不能领会为什么旋转的珍妮和这个纺织有什么关系。
但中文只用了一个“纺”字就能唤醒中国人历朝历代的血脉记忆:那是慈母手中的线,那是游子身上的衣,那是男耕女织的生活方式,那是明朝末年的资本主义萌芽。
这也就是为什么中国的AI工程师用中文数据去训练,速度会快35%。回到我视频开头,有人说人工智能的出现让学语言的人一夜之间丢掉了饭碗,因为不再需要翻译了。
但从另外一个角度讲,人工智能的出现或许让那些真正语言学得好的人找到了新的饭碗。从八卦周易到现代的二进制,从形声字的结构到AI的特征提取,那始终在践行有限元素无限组合的信息哲学。
李白的“飞流直下三千尺”直接影响了AI团队优化水利AI模型。营造法式的榫卯结构正在重塑全球机器人关节设计的思路。
或许嬴政当年统一文字时就已经预见到,那些刻在竹简上的横竖撇捺,有一天会成为人类智慧的终极密钥。
当英语在专业术语的泥潭中艰难跋涉时,汉字正以8000年文明的磅礴势能为人类推开AI时代的大门。这或许是最硬核的文化复仇,更是最浪漫的文明救赎。