项目地址: unslothai/unsloth | ⭐ 64K+ Stars | 🛠 Python | 🏢 Unsloth AI
老实说,搞过 LLM 微调的人都知道那有多折磨。装环境半天、跑一次训练等一宿、显存动不动就爆。以前要想微调一个 70B 模型,没个 A100 你都不好意思跟人打招呼。但 Unsloth 把这套流程砍到了几乎零门槛——64K+ Stars 不是白来的。
⚡ 一行命令装好
别整那些花里胡哨的,装 Unsloth 就一行:
curl -fsSL https://unsloth.ai/install.sh | sh
Windows 用户也一样:
irm https://unsloth.ai/install.ps1 | iex
装完直接起 Web UI:
unsloth studio -p 8888
浏览器打开 http://localhost:8888,你就有一个能跑能训的 LLM 环境了。要是想在 Docker 里跑:
docker run -d -e JUPYTER_PASSWORD="mypassword" \
-p 8888:8888 -p 8000:8000 \
--gpus all \
unsloth/unsloth
🚀 训得快省得多
Unsloth 最骚的操作是它自研的 Triton 和数学 kernel——训练速度最高快 2 倍,显存占用最多省 70%。不是靠降精度换的,准确率不打折。
| 模型 | 速度提升 | 显存节省 |
|------|---------|---------|
| Qwen3.5 (4B) | 1.5x | 60% |
| gpt-oss (20B) | 2x | 70% |
| Llama 3.1 (8B) | 2x | 70% |
500+ 模型全支持,包括 Gemma 4、Qwen3.6、DeepSeek、Llama 4。我拿一张 RTX 4090 试过微调 8B 模型,以前不敢想的配置现在跑得挺欢。
🧠 强化学习也安排上了
一般人用不上 RL,但如果你要做推理模型(比如 DeepSeek-R1 那套),Unsloth 的 GRPO 实现比别家省 80% 显存。用 Python 调也不复杂:
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/Qwen3.5-4B",
max_seq_length=8192,
load_in_4bit=True,
)
# 微调一行搞定
from unsloth import is_bfloat16_supported
from trl import GRPOConfig, GRPOTrainer
trainer = GRPOTrainer(
model=model,
args=GRPOConfig(
learning_rate=5e-6,
per_device_train_batch_size=2,
gradient_accumulation_steps=4,
bf16=is_bfloat16_supported(),
),
train_dataset=dataset,
)
trainer.train()
踩过的坑都是泪——记得开 load_in_4bit,不然 4090 上 8B 模型训不起来。别问我怎么知道的。
🔌 还能当 API Server 用
最近 Unsloth 加了 API inference endpoint,训完的模型可以直接暴露给 Claude Code、Codex 这些工具用:
unsloth serve my-fine-tuned-model --port 8000
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="not-needed",
)
response = client.chat.completions.create(
model="my-fine-tuned-model",
messages=[{"role": "user", "content": "讲个冷笑话"}]
)
print(response.choices[0].message.content)
总结
老实说,如果你还在用手搓脚本搞微调,试试 Unsloth——省下来的时间够你摸好几天鱼了。