Meta AI一直是人工智能领域开源领域的领导者,一边是OpenAI鼓吹闭源才是人工智能大模型的未来,但是Meta AI却开源了自己的Llama 3大模型,且Llama 3开源模型支持80亿与700亿参数,而未来更大的4000亿参数大模型还在继续训练中。其Llama 3大模型可以直接在Meta AI官网直接使用,且支持无需注册登陆即可使用,简直是开箱即用。
Meta AI Llama3
Llama 3 模型简介
Llama 3是Meta AI开源的第三代Llama系列模型,其新的 8B 和 70B 参数 Llama 3 模型在Llama 2的基础上,实现了更大性能的提升。由于预训练和训练后的技术改进,其Llama 3模型是当今 8B 和 70B 参数规模的最佳模型。Llama 3模型的改进大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。Llama 3模型在推理、代码生成和指令跟踪等功能也得到了极大的改善。
Llama 3模型与其他模型参数对比
在 Llama 3 的开发过程中,为了优化现实场景的性能。Meta AI开发了一套新的高质量人类评估数据集。此数据集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。
Claude Sonnet、Mistral Medium 和 GPT-3.5 对比结果
为了打造更加强大的Llama 3大模型,Meta AI分别在模型架构、预训练数据、扩大预训练和指令微调四个方面进行了创新调整。
模型架构
Llama 3 中选择了相对标准的仅解码器 Transformer 架构。与 Llama 2 相比,Llama 3 使用具有 128K 标记词汇表的标记器,可以更有效地对语言进行编码,从而显著提高模型性能。为了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小上采用了分组查询注意力 机制(GQA)。不得不说,transformer依然是大模型的天下。
transformer模型
预训练数据集
为了提高训练效果,除了Meta AI自行设计的数据集外,Llama 3训练数据集比 Llama 2 使用的数据集大七倍,并且包含四倍多的代码。为了多语言模型,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成。为了确保 Llama 3 接受最高质量数据的训练,Meta AI开发了一系列数据过滤器,包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器等等,以便得到更加高质量的预训练数据集。
扩大预训练规模
为了训练最大参数的 Llama 3 模型,Meta AI使用数据并行化、模型并行化和管道并行化的方式对模型进行训练。当同时在 16K GPU 上进行训练时,可实现每个 GPU 超过 400 TFLOPS 的计算利用率。且Meta AI设计了自动检测错误规则,自动纠正规则,让模型总体有效训练时间超过95%,其效率比Llama 2 大大提高了3倍之多。
模型性能对比
指令微调
通过监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合方法进行模型的微调,让Llama 3 模型在推理以及编码性能上得到了大大的提升。通过 PPO 和 DPO 从偏好排名数据中学习也极大地提高了 Llama 3 在推理和编码任务上的性能。如果你向模型提出一个它难以回答的推理问题,该模型有时会产生正确的推理轨迹,得到正确的答案。
Llama 3 模型使用
Llama 3 模型将在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上推出。可以直接在以上平台上直接使用Llama 3 模型,当然也可以直接在Meta AI的官网直接使用,且无需任何登陆注册步骤,只要能登陆网站,就可以使用。
系统安全设计规则
Llama 3 模型的使用直接在Meta AI官网使用,其官网使用的就是Llama 3模型。
Meta AI使用Llama3
Llama 3 模型虽然没有说支持中文,但是当你输入中文跟他聊天时,模型依然可以正常回答。
Llama 3 示例
但是回答的是英文,若让模型翻译成中文,或者中文回答,模型依然可以用中文回答,但是网站上立马就转换成了英文。要不是立马截图,还真以为模型不懂中文。
中文回答截图
Meta 认为,开源其模型可以促进社区驱动的创新,使开发人员能够在技术的基础上进行开发和改进。开源模型展示了对技术的透明度和信任,使用户能够了解模型的工作原理并做出明智的决策。Meta 旨在通过开源模型,加速人工智能研发进程,造福更广泛的人工智能社区。开源模型减少了重复工作,因为开发人员可以在现有模型的基础上进行构建,而不是从头开始。
你觉得开源是未来,还是闭源?
Meta AI
https://ai.meta.com/blog/meta-llama-3/https://www.meta.ai/https://llama.meta.com/docs/get-started/Llama 3 模型已经开源,任何人都可以使用Llama 3 模型开发自己的应用,且Meta AI官方提供了详细说明,可以按照相关说明进行Llama 3 模型的开发使用。