文/陈根
牛津大学最近进行的一项研究表明,从诸多语言模型的计费方式看,英语的输入和输出比其他语言的输入和输出要便宜得多。例如,西班牙语的成本约为英语的1.5倍,简体中文的价格约为2倍以上,缅甸掸语在15倍以上。
成本的差异也间接导致英语使用者和世界其他语言使用者之间形成AI鸿沟。
成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元,这个更小的单元就是标记(Token)。这是一个人工智能(AI)公司将用户输入转换为计算成本的过程。
研究显示,使用英语以外的语言访问和训练模型的成本都更高。例如中文,无论是在语法上还是在字符数量上,都有更复杂的结构,从而导致更高的标记化(Token)率。
汉语训练大语言模型不仅成本更高,并且难度更大,这其中的原因就在于汉语的词性、语法都比英文更为复杂。
因此,目前谈论汉语大模型训练成本的企业,基本上都只是一种自我假象。并且所谓的一些测试,更多的只是基于特定数据库的检索问答,跟真正的机器具备自我生成式能力还存在比较大的差异。
当然,这也是目前我们所看到的,各种发布会都很领先,但是至今没有可以公开使用的大模型。偶尔有个别公司上线了手机端的APP应用,也基本上没有真正的用户使用,更多的是一种面向资本市场的营销行为。
因为这些应用背后的技术,从真正能够提供、赋能、解决工作的层面来看,基本上没有实质性的价值,更多的只是提供给一些用户尝先使用。
当然,一些企业更多的则是借助于国际上已经开源的一些大模型,然后进行换脸。不过这些包装应用,由于还没有受到市场关注,也没有什么实质性的用户,因此监管部门还没有介入。
从严格意义上来说,不论是套壳,还是自我研发的大模型,目前没有一个大模型是具备在正常讲话的前提下,并且能够正确的讲话。