⚡ LocalAI:46k Stars 的开源 AI 引擎,一条命令在本地跑 LLM + 语音 + 图像,不需要 GPU
项目地址:mudler/LocalAI | ⭐ 46,259 Stars | 🛠 Go | 作者:Ettore Di Giacinto | 📘 MIT License
老实说,现在跑 AI 模型的选择太多了。Ollama 只做 LLM,ComfyUI 只管图像,Whisper 只做语音。想搭一个完整的本地 AI 服务,得拼好几个项目,端口冲突、依赖打架,头疼得很。
LocalAI 直接把这事儿一锅端了。一个 Docker 镜像,LLM、语音合成、语音识别、图像生成、视频生成、Embedding、Reranker 全包了。36+ 后端引擎,llama.cpp、vLLM、transformers、diffusers、MLX 随便切换。而且 API 兼容 OpenAI,你现有的客户端代码几乎不用改。
🚀 一条命令跑起来
CPU 用户就这一行:
docker run -ti --name local-ai -p 8080:8080 localai/localai:latest
有 NVIDIA 显卡的:
# CUDA 12
docker run -ti --name local-ai -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-12
# CUDA 13(新卡)
docker run -ti --name local-ai -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-13
AMD、Intel、Apple Silicon 全都有对应镜像。启动后访问 http://localhost:8080 就能看到 WebUI。
📥 加载模型
LocalAI 自带模型画廊,选择多到吓人:
# 从模型画廊拉一个轻量模型
local-ai run llama-3.2-1b-instruct:q4_k_m
# 从 HuggingFace 拉 GGUF
local-ai run huggingface://TheBloke/phi-2-GGUF/phi-2.Q8_0.gguf
# 从 Ollama 的镜像仓库拉
local-ai run ollama://gemma:2b
# 从标准 OCI 仓库(跟拉 Docker 镜像一样)
local-ai run oci://localai/phi-2:latest
最骚的是,后端引擎是自动探测的——它会看你的 GPU 是什么,自动下载对应的推理后端,不用你操心 CUDA 版本匹配。
🔌 直接替换 OpenAI
启动后,LocalAI 在 http://localhost:8080 上提供 OpenAI 兼容 API。你现有的代码把 base_url 改一下就行:
# 直接 curl 测试
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "phi-2",
"messages": [{"role": "user", "content": "用中文介绍自己"}]
}'
对应 Python 代码也就改一行:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8080/v1", api_key="not-needed")
# 后面的用法完全一样
🧠 内置 Agent + MCP
LocalAI 不只是 API 代理。它内置了 Agent 系统,支持 tool use、RAG、MCP 协议和 Skills。你可以在一个二进制的环境里跑起完整的 Agent 工作流,数据不离开本地。
几个最新功能可以直接用:
从 v3.2.0 开始,所有后端都移到了主二进制之外,核心镜像只有几十 MB,需要什么后端动态下载。
💡 总结
别折腾了,一个 docker run 就有的东西,何必自己拼。
标签:#AI #LocalAI #开源 #自部署 #LLM #Docker #Agent #MCP