速度秒杀GPT们10倍,国外的DeepSeek时刻来了?

俊贤笔记 2025-03-15 12:11:41

什么?AI界又整新活了?最近,AI行业传来一则消息,引起了不少人的关注。

   虽然这个消息的影响力可能不及DeepSeek和Manus,但其潜在作用值得重视。

   前些日子,一个名不见经传的小公司InceptionLabs公布了全球首个商业级扩散大模型Mercury。

   这一举动或将引发一场颠覆性变化,改变大模型在过去三年中的发展格局。

   InceptionLabs在一系列测试中,MercuryCoder的表现令人瞩目,几乎完全超越了广为人知的GPT-4oMini和Claude3.5Haiku等常用模型。

   尽管这些竞争对手专注于优化生成速度,Mercury的速度依然快了多达十倍!这真的让人感到惊讶更令人印象深刻的是,Mercury在NVIDIAH100芯片上,能达到每秒超过1000个token的处理速度。

   这种速度,常见的大模型一般需要额外定制专属的AI芯片才能实现。

   为了增强token处理能力,定制芯片已成为各大厂商竞争的新焦点。

   除了速度,Mercury在生成效果的准确性方面同样表现良好。

   尽管目前的生成结果比起顶尖水平还有些差距,但考虑到其高效的生成速度,能够保持这样的质量,实属不易。

   在官方发布的MercuryCoderPlayground中进行了简单测试,发现它的生成效果相当不错,速度确实快得惊人。

   例如,使用HTML5编写贪吃蛇游戏的提示词所生成的代码,效果准确且迅速。

   也许一些人会想,这么看也没什么了不起,难道真要说AI界要变天吗?Mercury的厉害之处并不完全在于它的优质效果,而是它为AI行业带来了新的可能性。

   谁说大语言模型必须走Transformer的路线?在现今的AI时代,Transformer和Diffusion之间的竞争与合作不断。

   我们看到,Transformer与Diffusion的结合形成了新的发展趋势。

   这两者其实代表了AI的两种不同发展思路。

   Transformer的链式思维使得生成过程需要逐步推进,而Diffusion则是从模糊到明确的过程,更加灵活。

   简单来说,Diffusion在生成任务中并不依赖于先进的连接关系,而是需要通过逐渐清晰化模糊的答案来生成内容。

   这种方式在某种程度上打破了传统的思维模式。

   回顾历史,Transformer在AI生成领域曾经是主流,然而随着时间推移,其计算复杂度逐渐显现出问题。

   虽然Transformer的注意力机制看起来很出色,但其计算难度却呈现出指数增长,最终导致反应速度下降,难以满足长文本和视频等需求。

   面对这一挑战,行业内一直在探索降低Transformer计算复杂度的方法。

   像DeepSeek通过量化、蒸馏和压缩模型而获得成功,正是源于这种迫切需求。

   Mercury的出现好像在提醒大家,如果降低Transformer的计算难度太复杂,那不如尝试新方向。

   Diffusion模型在多模态处理上的优势,让人们对未来的可能性充满期待。

   虽然目前Mercury并没有公开技术细节,但通过与Claude3.5Haiku、GPT4-omini等模型的比较,Mercury的Diffusion语言模型尚未达到最佳状态。

   在测试过程中,使用自定义提示词时生成效果的稳定性也不尽如人意。

   显然,Mercury的成绩让人刮目相看,特别是考虑到Diffusion在多种模式的生成中所展现出来的力量,让人不禁想象,如果Diffusion成为了AI大模型发展的主流,那未来的发展肯定会更加顺畅。

   不仅如此,在某种程度上,Mercury的出现让人联想到电影《降临》中,外星人不再以人类的逻辑进行思考,而是用不同的思维方式带来了新的可能性。

   这也许在某种程度上反映了AI思考方式的独特性,Diffusion可能更符合其本质。

   Mercury的名字象征着快速与沟通能力,恰如水星在太阳系中的角色。

   期待Mercury带来的新发展能真正推动AI技术的进步!这些新鲜的视角让人充满希望。

0 阅读:1