data:image/s3,"s3://crabby-images/b8a01/b8a0133cc4d1f073826f9e47d8d1d01655234ee3" alt=""
DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力机制 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多 token 预测训练目标以获得更强大的性能。
data:image/s3,"s3://crabby-images/a5817/a581770318f7aa990538737eb9241a92265a3804" alt=""
DeepSeek-V3在 14.8 万亿个多样化和高质量的 token 上进行了预训练,然后进行监督微调和强化学习阶段,以充分利用其性能。综合评估表明,DeepSeek-V3 优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外,它的训练过程非常稳定。在整个训练过程中,没有遇到任何无法恢复的损失峰值或执行任何回滚操作。
data:image/s3,"s3://crabby-images/fe554/fe55444119053ca1e605cb89fe01dbd282e8c505" alt=""
DeepSeek-V3作为一个开源的模型,得到了业界的一致好评,其DeepSeek官网网站也更新了模型,可以直接在DeepSeek官网进行 AI 对话。
data:image/s3,"s3://crabby-images/1d22d/1d22dbab09a8a0dc466fef38731d1dcfbe7ad97e" alt=""
前期我们介绍过 以及的安装教程,可以参考往期的内容进行下载安装,并下载预训练模型,打造本地 AI 助手。ollama官网已经更新到了DeepSeek-V2.5,其 V3 版本是网友在 hugging face 上面共享的模型,若电脑配置不高,可以使用此版本的模型。
data:image/s3,"s3://crabby-images/c1084/c108457be9e2852e543cad7f6cf674e514a69415" alt=""
DeepSeek-V3作为一个开源模型,可以直接在 GitHub 上面找到对应的模型代码以及预训练权重,若喜欢代码的同学,可以直接运行代码,但是针对其他小伙伴可以考虑直接使用DeepSeek-V3的 API,遥想当年,大家为申请一个 openai的 API 使出各种绝招,如今大语言模型层出不穷,且开源的模型很多性能也是趋近了闭源模型(比如 meta 的 llama系列)
data:image/s3,"s3://crabby-images/96f69/96f69989bc806703c92e675db33f6993c9a43faa" alt=""
DeepSeek-V3模型也提供了 API 接口,我们可以直接在DeepSeek-V3官网申请自己的 API 接口,一旦申请成功,后台给了免费 500 万 tokens 的使用额度,针对小型的应用调试也是足够了。我们只需要申请自己的 API keys 即可。
data:image/s3,"s3://crabby-images/79f89/79f897725beabd90437fe878f6c548d9277ab707" alt=""
得到 API keys 后,喜欢玩代码的小伙伴可以使用 openai库进行代码的调用,调用代码兼容 openai的代码,直接使用 openai库进行调用即可。
# Please install OpenAI SDK first: `pip3 install openai`from openai import OpenAIclient = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")response = client.chat.completions.create( model="deepseek-chat", messages=[ {"role": "system", "content": "You are a helpful assistant"}, {"role": "user", "content": "Hello"}, ], stream=False)print(response.choices[0].message.content)当然我们可以直接在 vscode 中也可以直接来使用DeepSeek-V3模型,打开 vscode 编辑器,在扩展程序中安装 Cline 即可。
data:image/s3,"s3://crabby-images/5f6e0/5f6e00957e4c97f2d30414ccb8d77723d4ae0b04" alt=""
安装完成后,选择 deep seek 模型,并添加自己的 API keys,我们就可以跟DeepSeek-V3模型聊天了。
data:image/s3,"s3://crabby-images/262d5/262d59542479718b47c05bf964beb693b0743504" alt=""
在输入框中输入对应的问题,就可以跟DeepSeek-V3聊天,若模型回复其问题,说明我们配置成功了DeepSeek-V3的 API,当然这里也支持其他模型的 API,比如 Google Gemini,open-ai以及ollama等等。
data:image/s3,"s3://crabby-images/d6013/d6013999ab6b08987817a57dfdb9bcbb4d93f8da" alt=""
DeepSeek-V3 是由深度求索公司开发的先进大型语言模型,代表了其AI模型系列的第三代,在自然语言理解、推理能力和上下文感知方面有显著改进。主要特点包括:
data:image/s3,"s3://crabby-images/08865/08865be1dfe91c21392ebfc394a131bd20fcf148" alt=""
data:image/s3,"s3://crabby-images/0e23d/0e23dfa76b4bf19833806928bc83976c461ef928" alt=""
关于DeepSeek-V3模型的更多细节,可以参考 GitHub 上面的公开论文。
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdfhttps://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-filehttps://www.deepseek.com/