Llama.cpp 简介

llama.cpp 的主要目标是在各种硬件(本地和云端)上以最少的设置和最先进的性能实现 LLM 推理。

  • 纯 C/C++ 实现,无任何依赖项
  • Apple 芯片是一流的——通过 ARM NEON、Accelerate 和 Metal 框架进行了优化
  • AVX、AVX2、AVX512 和 AMX 支持 x86 架构
  • 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化,可加快推理速度并减少内存使用
  • 用于在 NVIDIA GPU 上运行 LLM 的自定义 CUDA 内核(通过 HIP 支持 AMD GPU,通过 MUSA 支持 Moore Threads MTT GPU)
  • Vulkan 和 SYCL 后端支持
  • CPU+GPU 混合推理,部分加速大于 VRAM 总容量的模型

支持的型号:

通常也支持以下基础模型的微调。

(支持更多模型的说明: HOWTO-add-model.md)

多模态模型:

Bindings:

**用户界面:

除非另有说明,这些项目都是具有宽松许可的开源项目:

(to have a project listed here, it should clearly state that it depends on llama.cpp)

工具:

  • akx/ggify – 从 HuggingFace Hub 下载 PyTorch 模型并将其转换为 GGML
  • akx/ollama-dl – 从 Ollama 库下载模型,以便直接与 llama.cpp 一起使用
  • crashr/gppm – 利用 NVIDIA Tesla P40 或 P100 GPU 启动 llama.cpp 实例,降低空闲功耗
  • gpustack/gguf-parser - 查看/检查 GGUF 文件并估计内存使用情况
  • Styled Lines (专有许可,用于 Unity3d 游戏开发的推理部分的异步包装器,带有预构建的移动和 Web 平台包装器以及模型示例)

基础设施:

  • Paddler - 为 llama.cpp 量身定制的状态负载均衡器
  • GPUStack - 管理用于运行 LLM 的 GPU 集群
  • llama_cpp_canister - llama.cpp 作为互联网计算机上的智能合约,使用 WebAssembly

游戏:

  • Lucy’s Labyrinth - 一个简单的迷宫游戏,其中由 AI 模型控制的代理将试图欺骗你。
作者:Jeebiz  创建时间:2024-11-28 16:06
最后编辑:Jeebiz  更新时间:2024-11-28 16:14