长长长长长长!世界上首个支持1亿上下文的模型正式发布

新浪财经 2024-08-30 15:59:04

这是什么概念呢,简单来说,该模型能够处理并理解相当于约750本小说的文本量,亦或者1000万行代码。

与其他模型相比,LTM-2-mini在处理这些tokens时更加高效。比如,当处理同样多的tokens时,它的算法比Llama3.1模型的注意力机制便宜约1000倍。

不仅如此,LTM-2-mini对内存的需求也小得多。例如,运行Llama3.1需要638个高性能GPU来存储这些数据,而它只需要其中的一小部分GPU内存就能做到同样的事情。

在此之前,世界上公开可用的LLM中,独一档的上下文窗口来自Gemini1.5的1Mtokens,甚至其内部也已经成功实现了高达10Mtokens的上下文窗口,相当于能一口气看完9个小时的《指环王》三部曲。

而现在,LTM-2-mini将这场技术竞赛卷到了100M。

想象一下,当你沉浸在一本小说的某个章节时,为了完全理解这个章节的内容,你可能需要回顾前几章的内容。这是因为故事的情节、角色的发展和主题都是相互关联的,只有通过了解前面的内容,你才能更好地理解当前章节的深意。

在AI模型中,上下文窗口的作用与之类似。

它能够让模型在处理当前的文本信息时,参考之前的文本内容,从而能够理解单词、短语或句子在特定上下文中的含义,而不是孤立地看待它们。

Magic官方认为,目前缺乏一种合适的长下文窗口评估方法,即便是传统的「大海捞针」实验,即通过在大量文本中隐藏一个特定事实或信息(针),然后要求模型找到这个特定信息的方法也并不理想。

在他们看来,这种测试方法存在一些问题。如果测试中的「针」(即需要检索的事实)非常显眼,模型可能会通过识别这个「针」的特征从而轻易找到它,而不是真正地理解和处理整个上下文。

这就好比在一部关于鲸鱼的小说中,将「针」设置为「两个人在一家咖啡店喝咖啡」,这明显与小说的主题(鲸鱼)不相关,因此很容易被识别。

而现实世界的数据通常又不会像测试中的「针」那样显眼。

为此,Magic也特别设计了一种名为「HashHop」的测试方法,目的是让模型在没有提示的情况下学会处理随机信息。

具体来说,哈希值(Hashe)就是一些随机生成的代码片段,模型需要记住并正确地关联它们。

Magic研究团队会给模型一对哈希值,然后要求它去完成另一对哈希值的关联,有时还会让它一次性跳过多个步骤直接给出结果。通过使用哈希对和哈希链来测试模型的多步推理能力,这反而接近于现实世界中处理复杂信息的方式。

LTM-2-mini只是一个开始,Magic目前正在超级计算机上训练全新的大模型LTM-2。

在今年2月份的时候,Magic也宣称开发了一种具有类似OpenAIQ*主动推理能力的AI模型,将有助于解决现有大模型在逻辑推理方面的不足。

此外,通过与GoogleCloud合作,Magic还构建了由英伟达GB200NVL72GPU组成的强大集群,以及配备了H100TensorCoreGPU的Magic-G4和Magic-G5超级计算机。

简言之,长上下文军备竞赛或许已经没有意义了,因为LTM-2-mini杀死了比赛。

0 阅读:27