我国牛逼的大厂那么多,但是 AI 大模型的发展现在完全要依赖 DeepSeek 这家小公司。
之前是大模型远远的差国外一线一大截,后来 DeepSeek V3、R1发布之后,我们几乎和国外打平手了。
然后各个大厂马上复制 DeepSeek 的能力,全中国的互联网产品的 AI 能力,突然集体飙升到世界一线。
要说有点缺陷,那就是编程能力了。
像之前大家都喜欢用 Cursor,因为他背后接了很多对编程能力支持很强的大模型,比如 Claude3.5、3.7。
国内虽然有 Trae 这样的产品,但是由于这些大模型都是国外产品,法律法规上不允许国内使用。
这就导致国内的 AI 编程发展,和国外确实还差了一大截子!但是现在这个情况,又有所突破了。

原因就是 DeepSeek V3 昨天又发布了一个小版本,使得 DeepSeek V3 编程能力大幅度提升,超过 R1。
在 KCORES大模型竞技场中,Claude-3.7-Sonnet-Thinking无疑是LLM当之无愧的王者,DeepSeek-V3-0324以328.3分拿下第三名,仅次于Claude 3.5 Sonnet。

实际测试中,用户仅用单一提示词即可生成包含HTML/CSS/JS的完整登录页面,代码量超800行且无错误,展示了与Claude 3.7相当的生成质量。
用户按照下面的提示词,同时对新版 V3 与 R1 下达任务,实际产出的效果已经出现巨大差异。
创建一个包含 CSS 和 JavaScript 的单个 HTML 文件,以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件:风:(例如,移动的云朵、摇曳的树木或风线)雨:(例如,落下的雨滴、形成的水坑)晴:(例如,闪耀的光线、明亮的背景)雪:(例如,落下的雪花、积雪)并排显示所有天气卡片。卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气的动画。
上面这个是是 DeepSeek 新版 V3 模型的生成结果,下面第二图片是 R1 的生成结果。


除了对比 R1 ,用户还用类似的提示词,对比了 Claude 系列。
Claude 3.7 作为目前号称「编程能力最强模型」,实际编程能力使用体验也是多次被评为「已经达到专家级程序员水准」。
同一提示词给到 Claude 3.5/3.7 后,模型生成的前端内容如下所示:

根据更多用户的反馈,普遍结论是最新版本的 V3 编程能力已经接近claude3.7 。
最关键的是 Caude 死贵还难用,DeepSeek 是一款开源的大模型,在编程能力就如此突出。
然后再做一个网站搭建的测试,我 DeepSeek V3 的老版本和新版本,发这样一句要求:
做一个精美的官网落地页,内容是介绍 AI 俱乐部。
原来的 V3 版本输出的网页就是这样,就一个页面,很简单的展示几个信息而已,像初学的程序员。

再来看看最新版本的 V3,同样是输出上面给出的命令,看看它能给我生成一个什么样的官网。




都叫 V3 版本,但是差距巨大。
最新版本的 V3,输出的网页至少可以达到正常的审美要求,各种需要的元素也都包含在其中。
再来给 V3 上一个难度,再给他一句提示词:
帮我生成一个在线html的番茄时钟。

生成的页面如上,功能都可以设置和使用。
测试完成之后,我就有一个强烈的感慨,这还不是中国国运吗?DeepSeek 以一己之力拉平国内AI编程水平。
如果没有 DeepSeek 这家公司,国内的 AI 发展确实对比美国还差点意思,现在来看基本上拉平了。
最最重要的是,国外这些优秀的大模型,都是商业闭源,我们用的时候还要付费。
付费也不说了,关键还动不动响应慢、甚至使用的稍微不规范,还给你封号了。
DeepSeek 完全开源,直接在官网上就可以免费使用。
它不但普惠的是中国用户,是全世界的用户都可以免费利用 DeepSeek 的能力,拉平他们的 AI 差距。
另外,还有一个好消息。
按照 DeepSeek 这家公司的调性,据说很快 R2 就要发布了,到时候还不知道能给大家带来多大的惊喜。
保持期待吧。

游客
国运啊
锐利锋芒
向DS科研团队致敬!
铃听雨声
根本就不好用。
聚会子 回复 04-01 23:08
不懂用所以[滑稽笑]
大明古城 回复 04-01 23:04
张口就来!好像大家不会用似的!现在还有外国基金会赚钱的渠道?在哪?透露一下呗?
大伙一起上
越来做多人失业!