教程“Tiny LLM - LLM Serving in a Week”
正在持续更新中。目前已经完成的部分主要介绍了矩阵操作是如何将 Qwen2 模型的参数,转变为一个能够生成文本的模型的。会教你使用 mlx 的矩阵 API 实现 Qwen2 模型中使用的神经网络层。
“本课程专为希望理解大语言模型(LLM)工作原理的系统工程师设计。
作为一名系统工程师,我总是对事物的内部工作原理以及如何优化它们充满好奇。在学习和理解 LLM 的过程中,我遇到了很大的困难。大多数用于部署 LLM 的开源项目都通过 CUDA 核心(kernels)和其他底层技术进行了高度优化。想要通过研读一个十万行代码量的代码库来理解其全貌,并非易事。
因此,我决定从零开始实现一个 LLM 服务项目——它仅使用矩阵运算的 API。这样,我就能真正理解加载这些 LLM 模型参数、并施展“数学魔法”来生成文本的整个过程是怎样的。
您可以将本课程视为卡内基梅隆大学(CMU)《深度学习系统》课程中 “needle” 项目的大语言模型(LLM)版本。”
AI生活指南