Llamafile 是 Mozilla 的 Ocho 小组在人工智能时代推出的一个非常有趣的项目。Llamafile 可以轻松运行和发布大型语言模型(LLM),这些模型自包含在一个文件中。Llamafile 以 Llama.cpp 为基础,可以轻松地将整个 LLM 作为单个文件发布,同时支持 CPU 和 GPU 执行。Llamafile 0.8 现已发布,将加入 LLaMA3 的行列,并提供其他模型支持和增强 CPU 性能。
Llamafile 0.8 是一个令人兴奋的版本,新增了对 LLaMA3、Grok 和 Mixtral 8x22b 的支持。
在重构了 tinyBLAS CPU 代码后,Mixtral 和 Grok 等专家混合(MoE)模型在 CPU 上的执行速度提高了 2 至 5 倍。在 Raspberry Pi 5 上的 F16 性能也提高了约 20%,在英特尔 Skylake 上的 F16 性能提高了约 30%,在苹果 M2 上的 F16 性能提高了约 60%。
Llamafile 0.8 还改进了 CPU 功能检测和其他增强功能:
– 现已支持 LLaMA3
– 引入了对 Grok 的支持
– 引入了对 Mixtral 8x22b 的支持
– 引入了对 Command-R 模型的支持
– MoE 模型(如 Mixtral、Grok)在 CPU 上的运行速度提高了 2-5 倍
– F16 在 Raspberry Pi 5 上的运行速度提高了 20%(TinyLLaMA 1.1b 提示评估提高了 62 -> 75 托克/秒)
– 在 Skylake 上,F16 现在快了 30%(TinyLLaMA 1.1b 提示评估提高了 171 -> 219 托/秒)
– F16 在 Apple M2 上的运行速度提高了 60%(Mistral 7b 提示评估提高了 79 -> 128 tok/秒)
– 在创建 llamafile 时,增加在网页指南中覆盖聊天模板的功能
– 改进服务器中的标记符和语法高亮显示
– 改进了 CPU 功能检测
Llamafile 0.8 通过 GitHub 下载。我很快就会开发新的 Llamafile 基准测试。
转自 Llamafile 0.8 Releases With LLaMA3 & Grok Support, Faster F16 Performance – Phoronix