腾讯云服务器配置iis 前两天有朋友问我Llama怎么部署,所有收集了点资料,写了篇文章。Llama.cpp部署起来还有点麻烦的,有兴趣的可以试试。毕竟足够轻量,支持cpu运算。 一···
腾讯云服务器配置iis
前两天有朋友问我Llama怎么部署,所有收集了点资料,写了篇文章。Llama.cpp部署起来还有点麻烦的,有兴趣的可以试试。毕竟足够轻量,支持cpu运算。
一、llama.cpp 是什么?
llama.cpp 是由 Georgi Gerganov 开发的轻量级、高性能的大语言模型(LLM)推理库,核心用 C/C++ 编写,主打低资源占用、跨平台、易部署。它最初仅支持 Meta 的 Llama 系列模型,现在已兼容绝大多数主流开源LLM(如ChatGLM、Qwen、Mistral、Phi等)。
核心特点:
无依赖:编译后可单文件运行,无需复杂的Python环境(对比Hugging Face Transformers)量化优化:支持将模型量化为2/3/4/5/6/8bit,大幅降低内存/显存占用(比如7B模型量化到4bit仅需4G左右内存)多硬件支持:优先优化CPU推理,同时支持NVIDIA CUDA、AMD ROCm、Apple Metal(Mac)、OpenCL等GPU加速跨平台:可运行在Windows、Linux、macOS,甚至树莓派、手机等嵌入式设备二、安装部署条件
1. 系统条件
主流操作系统:Windows 10/11(64位)、Linux(Ubuntu 20.04+/CentOS 8+)、macOS 12+(Apple Silicon/Intel)架构:x86_64、ARM64(如Mac M系列、树莓派4/5、安卓手机)2. 软件依赖
基础工具:Git(用于克隆仓库)编译环境:Linux/macOS:gcc(9.0+)/clang(11.0+)、makeWindows:Visual Studio 2022(带C++开发工具)或MinGW-w64可选依赖(加速):NVIDIA GPU:CUDA Toolkit 11.8+AMD GPU:ROCm 5.6+Mac:无需额外依赖(Metal加速内置)3. 模型条件
需要提前准备GGUF格式的LLM模型(llama.cpp的官方推荐格式,替代旧的GGML),几乎所有主流开源模型都有社区转换好的GGUF版本(可从Hugging Face下载,比如TheBloke的仓库)。
三、详细安装部署步骤
步骤1:克隆llama.cpp仓库
打开终端/命令提示符,执行以下命令克隆仓库并进入目录:
gitclonehttps://github.com/ggerganov/llama.cpp.gitcdllama.cpp步骤2:编译llama.cpp
不同系统/加速需求的编译命令不同,按需选择:
(1)基础编译(仅CPU,跨平台通用)
Linux/macOS:makeWindows(MinGW):makeWindows(Visual Studio):打开x64 Native Tools Command Prompt for VS 2022,进入llama.cpp目录执行:
nmake/f Makefile.msvc(2)带GPU加速的编译
NVIDIA CUDA加速(Linux/macOS/Windows):Linux/macOS make LLAMA_CUDA=1 Windows(VS) nmake /f Makefile.msvc LLAMA_CUDA=1Apple Metal加速(Mac):make LLAMA_METAL=1AMD ROCm加速(Linux):make LLAMA_ROCM=1编译完成后,目录下会生成main/chat/server等可执行文件,说明编译成功。
步骤3:获取GGUF模型(二选一)
方式1:直接下载现成的GGUF模型(推荐新手)
从Hugging Face的TheBloke仓库(https://huggingface.co/TheBloke)下载,搜索模型名+GGUF(如Llama 3 8B Instruct GGUF),将下载的模型文件(如llama3-8b-instruct-q4_0.gguf)放到llama.cpp目录下的models文件夹(无则新建)。
方式2:手动转换原始模型为GGUF(进阶)
若只有PyTorch原始模型(.bin/.pth),需用转换工具:
安装Python依赖(仅转换时需要):pip install -r requirements.txt执行转换命令(以Llama 3为例):python convert.py /path/to/original/llama3/model --outtype q4_0 --outfile models/llama3-8b-instruct-q4_0.gguf--outtype:指定量化精度(q2_k/q3_k_m/q4_0/q5_0/q8_0等),精度越低,资源占用越少,效果略降。步骤4:验证运行
执行基础推理命令,验证部署是否成功:
Linux/macOS./main -m models/llama3-8b-instruct-q4_0.gguf -p"你好,请介绍一下自己"Windowsmain.exe -m models/llama3-8b-instruct-q4_0.gguf -p"你好,请介绍一下自己"若能输出模型回复,说明部署成功。
四、核心功能
轻量化LLM推理:无需Python环境,单文件运行各类GGUF模型,是核心功能。模型量化:支持2-8bit量化,大幅降低内存/显存占用(7B模型4bit仅需4G内存)。多硬件加速:CPU优先,同时支持NVIDIA/AMD/Mac GPU加速,提升推理速度。多交互方式:命令行聊天、HTTP API服务、内置WebUI界面。多模态支持:集成llava等多模态模型,支持图文问答。跨平台部署:可运行在服务器、PC、树莓派、手机等设备。扩展能力:支持批量推理、函数调用(Function Calling)等进阶功能。五、常用使用方法
1. 命令行聊天(最常用)
Linux/macOS./chat-mmodels/llama3-8b-instruct-q4_0.gguf-c2048--temp0.7Windowschat.exe-mmodels/llama3-8b-instruct-q4_0.gguf-c2048--temp0.7关键参数说明:
-m:指定模型文件路径-c:上下文窗口大小(如2048,支持的对话token数)--temp:温度系数(0-1,越高回复越随机,越低越严谨)--n-gpu-layers:GPU加速层数(如--n-gpu-layers 35,值越大GPU占用越高、速度越快)2. 启动HTTP API服务
Linux/macOS./server-mmodels/llama3-8b-instruct-q4_0.gguf-c2048--n-gpu-layers35Windowsserver.exe-mmodels/llama3-8b-instruct-q4_0.gguf-c2048--n-gpu-layers35启动后API地址为http://localhost:8080,兼容OpenAI API规范,可对接ChatGPT客户端、LangChain等。
3. 访问WebUI
启动server后,直接访问http://localhost:8080,即可打开内置的简易WebUI进行可视化聊天。
六、硬件配置要求
租赁广东服务器云空间
llama.cpp对硬件要求极低,不同模型/量化精度的配置参考如下:
场景
模型规格(量化)
CPU
内存
GPU(可选)
适用设备
最低可用(体验)
7B(4bit)
4核CPU(x86/ARM)
4GB+
无
树莓派4/5、低配笔记本
app阿里云服务器搭建
日常使用(流畅)
7B(8bit)/13B(4bit)
8核CPU(i5/R5)
16GB+
NVIDIA GTX 1660+
主流笔记本、台式机
高性能(快速)
13B(8bit)/70B(4bit)
16核CPU(i7/R7)
32GB+
NVIDIA RTX 3090+/AMD RX 6900XT
高性能台式机、服务器
服务器部署
70B(8bit)
32核以上CPU
64GB+
NVIDIA A100/H100
云服务器、AI服务器
补充说明:
CPU:优先选择多核、高主频型号(llama.cpp对CPU并行优化好),AMD Zen3+/Intel 12代以上更佳。内存:必须是物理内存,虚拟内存会导致推理速度极慢。Mac M系列:Metal加速效果显著(M2 Max可流畅运行70B 4bit模型)。总结
llama.cpp是轻量级LLM推理库,核心优势是低资源占用、跨平台、支持量化,无需复杂Python环境即可运行主流LLM。安装核心步骤:克隆仓库→编译(按需开启GPU加速)→获取/转换GGUF模型→验证运行。硬件配置按需选择:7B 4bit模型仅需4GB内存即可体验,更高规格模型需匹配更多内存/更强CPU/GPU,GPU可显著提升推理速度。关注我,不定时更新我的笔记。
阿里云服务器显卡过低

发表评论
最近发表
标签列表