简单来说,Phi-3 是微软发布的,具有短上下文长度和长上下文长度的小型语言模型(SLM)系列。
一、为什么需要小型语言模型?随着大型语言模型(Large Language Model,LLM)的不断发布, 现在人们对于大语言模型已经不再陌生, 不断有公司发布自己最新的大语言模型,目前光是在我国互联网信息办公室注册的生成式大语言模型, 截止到2024年4月就有117 家之多,下面是部分备案大模型的名单:
属地
模型名称
备案单位
北京市
文心一言
北京百度网讯科技有限公司
北京市
智谱清言(ChatGLM)
北京智谱华章科技有限公司
北京市
云雀大模型
北京抖音信息服务有限公司
北京市
百应
北京百川智能科技有限公司
北京市
紫东太初大模型开放平台
中国科学院自动化研究所
上海市
abab
上海稀宇科技有限公司
上海市
日日新
上海商汤智能科技有限公司
上海市
书生·浦语
上海人工智能创新中心(上海人工智能实验室)
安徽省
星火认知大模型
科大讯飞股份有限公司
天津市
360智脑大模型
三六零科技集团有限公司
浙江省
通义千问大模型
阿里巴巴达摩院(杭州)科技有限公司
广东省
腾讯混元助手大模型
深圳市腾讯计算机系统有限公司
贵州省
华为云盘古NLP大模型
华为云计算技术有限公司
江苏省
智慧助手(小艺)大模型
华为软件技术有限公司
北京市
序列猴子
出门问问信息科技有限公司
北京市
Moonshot
北京月之暗面科技有限公司
北京市
“天工”大模型
昆仑万维科技股份有限公司
北京市
WPS AI
北京金山办公软件股份有限公司
北京市
奇元大模型
北京奇虎科技有限公司
北京市
面壁露卡 LUCA
北京面壁智能科技有限责任公司
北京市
美团大模型“通慧”
北京三快科技有限公司
北京市
子曰
北京网易有道计算机系统有限公司
北京市
好未来MathGPT大模型
北京世纪好未来教育科技有限公司
大模型
这么多基座模型, 应该怎么选择呢?实际上,选择正确的语言模型有三个方面,主要取决于:
组织的特定需求任务复杂性可用资源。下面是关于大模型和小模型的一些简单的对比:
转向我们今天所说的小模型(SLM)来说, 小型语言模型(SLM)非常适合旨在构建在设备本地(而不是在云中)运行的应用程序的组织。
有人认为大型语言模型更适合需要协调复杂任务、高级推理、数据分析和上下文理解的应用程序。
隐私对于人工智能应用而言是非常重要的,每个商业公司和组织都不希望在应用人工智能技术时丢掉自己的核心数据和商业隐私,小型语言模型为受监管的行业和部门提供了潜在的解决方案,这些行业和部门需要高质量的结果,同时将数据保存在自己的场所。
延迟是指在检索信息以生成用户提示的答案时,大型语言模型 (LLM) 与云之间的通信延迟。在某些用例中,制造商可以优先等待高质量的答案,而在其他用例中,速度对于用户满意度至关重要。但是,对于对话体验,延迟是不可协商的。对于部署在本地的小模型而言,极低的时间延迟, 对于提升用户体验是非常有益的。
成本也是一个考虑因素,小模型的使用成本更低,这使得使用 SLM 非常有吸引力。
可以离线运行的小型语言模型(SLM)大大拓宽了人工智能的适用性。
二、尝试一下Phi-3说了这么多小模型的好处,先来实际体会一下, Huggingface 提供的chat应用中,就可以选择Phi-3 模型:
设置关闭后,模特就会显示在聊天窗口中,用户可以与Phi-3 聊天。
这是我在尝试使用Phi-3的chat 截图:
三、Phi-3 系列模型的具体参数前面说过, Phi-3 是一个模型系列, 有多个模型,下面是官方的一些资料介绍:
Phi-3-mini, 具有38 亿个参数, 可在 Microsoft Azure AI Studio、Hugging Face 和 Ollama 上使用。Phi-3-mini 有两种上下文长度变体 - 4K 和 128K 个 token。它是同类模型中第一个支持最多 128K 个 token 的上下文窗口的模型,对质量影响很小。Phi-3-mini是指令调整的,这意味着它经过训练可以遵循不同类型的指令,反映人们通常的交流方式。这确保模型开箱即用。Phi-3-mini可以在 Azure AI 上使用,以利用 deploy-eval-finetune 工具链,也可以在 Ollama 上使用,供开发人员在笔记本电脑上本地运行。Phi-3-mini已针对 ONNX Runtime 进行了优化,支持 Windows DirectML,并跨图形处理单元 (GPU)、CPU 甚至移动硬件提供跨平台支持。Phi-3-mini还可以作为 NVIDIA NIM 微服务使用,具有标准 API 接口,可以部署在任何地方。并针对 NVIDIA GPU 进行了优化。之后,Phi-3 系列将添加更多模型,为客户提供更多质量成本曲线方面的灵活性。Phi-3-small (7B) 和 Phi-3-medium (14B) 将很快在 Azure AI 模型目录和其他模型园中提供。
总结Phi-3-mini是微软公司推出的一款轻量级语言模型,拥有38亿参数,并在3.3万亿个token上进行训练。尽管它的体积较小,便于部署在手机上,但其整体性能(通过学术基准和内部测试评估)却可与Mixtral 8x7B和GPT-3.5等模型媲美。例如,Phi-3-mini在MMLU上达到了69%,在MT-bench上达到了8.38。
Phi-3-mini的创新在于其训练数据集,这是Phi-2数据集的扩展版本,由经过严格筛选的公共网络数据和合成数据组成。此外,该模型还针对稳健性、安全性和聊天格式进行了优化。
微软还展示了初步的参数缩放结果,这些模型分别在4.8万亿个token上进行训练,分别为7B和14B参数的Phi-3-small和Phi-3-medium。这两款模型的性能均优于Phi-3-mini,例如,在MMLU上分别达到了75%和78%,在MT-bench上分别达到了8.7%和8.9%。
此外,微软还推出了基于Phi-3-mini的42亿参数模型Phi-3-vision,具备强大的图像和文本提示推理能力。