什么?AI界又整新活了?最近,AI行业传来一则消息,引起了不少人的关注。
虽然这个消息的影响力可能不及DeepSeek和Manus,但其潜在作用值得重视。
前些日子,一个名不见经传的小公司InceptionLabs公布了全球首个商业级扩散大模型Mercury。
这一举动或将引发一场颠覆性变化,改变大模型在过去三年中的发展格局。
InceptionLabs在一系列测试中,MercuryCoder的表现令人瞩目,几乎完全超越了广为人知的GPT-4oMini和Claude3.5Haiku等常用模型。
尽管这些竞争对手专注于优化生成速度,Mercury的速度依然快了多达十倍!这真的让人感到惊讶更令人印象深刻的是,Mercury在NVIDIAH100芯片上,能达到每秒超过1000个token的处理速度。
这种速度,常见的大模型一般需要额外定制专属的AI芯片才能实现。
为了增强token处理能力,定制芯片已成为各大厂商竞争的新焦点。
除了速度,Mercury在生成效果的准确性方面同样表现良好。
尽管目前的生成结果比起顶尖水平还有些差距,但考虑到其高效的生成速度,能够保持这样的质量,实属不易。
在官方发布的MercuryCoderPlayground中进行了简单测试,发现它的生成效果相当不错,速度确实快得惊人。
例如,使用HTML5编写贪吃蛇游戏的提示词所生成的代码,效果准确且迅速。
也许一些人会想,这么看也没什么了不起,难道真要说AI界要变天吗?Mercury的厉害之处并不完全在于它的优质效果,而是它为AI行业带来了新的可能性。
谁说大语言模型必须走Transformer的路线?在现今的AI时代,Transformer和Diffusion之间的竞争与合作不断。
我们看到,Transformer与Diffusion的结合形成了新的发展趋势。
这两者其实代表了AI的两种不同发展思路。
Transformer的链式思维使得生成过程需要逐步推进,而Diffusion则是从模糊到明确的过程,更加灵活。
简单来说,Diffusion在生成任务中并不依赖于先进的连接关系,而是需要通过逐渐清晰化模糊的答案来生成内容。
这种方式在某种程度上打破了传统的思维模式。
回顾历史,Transformer在AI生成领域曾经是主流,然而随着时间推移,其计算复杂度逐渐显现出问题。
虽然Transformer的注意力机制看起来很出色,但其计算难度却呈现出指数增长,最终导致反应速度下降,难以满足长文本和视频等需求。
面对这一挑战,行业内一直在探索降低Transformer计算复杂度的方法。
像DeepSeek通过量化、蒸馏和压缩模型而获得成功,正是源于这种迫切需求。
Mercury的出现好像在提醒大家,如果降低Transformer的计算难度太复杂,那不如尝试新方向。
Diffusion模型在多模态处理上的优势,让人们对未来的可能性充满期待。
虽然目前Mercury并没有公开技术细节,但通过与Claude3.5Haiku、GPT4-omini等模型的比较,Mercury的Diffusion语言模型尚未达到最佳状态。
在测试过程中,使用自定义提示词时生成效果的稳定性也不尽如人意。
显然,Mercury的成绩让人刮目相看,特别是考虑到Diffusion在多种模式的生成中所展现出来的力量,让人不禁想象,如果Diffusion成为了AI大模型发展的主流,那未来的发展肯定会更加顺畅。
不仅如此,在某种程度上,Mercury的出现让人联想到电影《降临》中,外星人不再以人类的逻辑进行思考,而是用不同的思维方式带来了新的可能性。
这也许在某种程度上反映了AI思考方式的独特性,Diffusion可能更符合其本质。
Mercury的名字象征着快速与沟通能力,恰如水星在太阳系中的角色。
期待Mercury带来的新发展能真正推动AI技术的进步!这些新鲜的视角让人充满希望。