JLama：首个纯Java实现的大语言推理引擎

JLama是首个在Maven Central提供的纯Java推理引擎，利用Java 21中的Vector API和Project Panama实现高效推理。由DataStax的首席软件架构师Jake Luciani开发，该库在开源社区中引起了广泛关注和好评。

背景

此前，Andrej Karpathy开源了700行代码的llama.c推理接口，展示了开发者如何与大型语言模型（LLMs）进行交互。这一项目在公共代码库中迅速流行，获得了成千上万的星标、分叉和移植。

JLama的特点纯Java实现：这是唯一一个在Maven Central中可用的Java推理库，避免了对本地实现的依赖。高性能：使用Java 21和Vector API，JLama提供了更快的推理速度。多模型支持：支持包括Gemma, Llama, Llama2, Mistral, Mixtral, GPT-2, BERT等模型，使用Hugging Face SafeTensors模型和Tokenizer格式。功能丰富：实现了分布式推理、闪存注意力机制、专家混合等功能。快速上手

开发者可以使用以下命令从Hugging Face下载模型：

$ ./run-cli.sh download gpt2-medium$ ./run-cli.sh download -t XXXXXXXX meta-llama/Llama-2-7b-chat-hf$ ./run-cli.sh download intfloat/e5-small-v2

下载模型后，可以与模型进行聊天或完成提示：

$ ./run-cli.sh complete -p "The best part of waking up is " -t 0.7 -tc 16 -q Q4 -wq I8 models/Llama-2-7b-chat-hf$ ./run-cli.sh chat -p "Tell me a joke about cats." -t 0.7 -tc 16 -q Q4 -wq I8 models/Llama-2-7b-chat-hf

JLama还提供一个简单的Web UI，供开发者快速开始与大语言模型进行互动：

$ ./run-cli.sh download tjake/llama2-7b-chat-hf-jlama-Q4$ ./run-cli.sh serve models/llama2-7b-chat-hf-jlama-Q4

启动应用后，可以通过http://localhost:8080/ui/index.html访问。

应用与前景

JLama不仅适用于纯Java应用，还可以与Spring或Quarkus等框架集成。此外，新的应用如Devoxx Genie或Podman Desktop扩展，也在帮助开发者更快地使用LLMs。

展望

根据项目路线图，未来将支持更多模型以及LoRA和GraalVM。这一发展方向与Andrej Karpathy的观点一致，即在特定领域内，小型LLMs也能表现出色。

结语

JLama为Java生态系统带来了强大的AI推理能力，利用Vector API和Project Panama实现了高效、低延迟的推理。随着更多模型和功能的支持，JLama有望在AI应用领域发挥重要作用。

世良情感网

JLama：首个纯Java实现的大语言推理引擎

爱的威利斯