欣淇
发布于 2026-05-15 / 0 阅读
0
0

⚡ Unsloth:64k Stars 的开源 LLM 微调神器,2 倍训练速度 + 70% 显存节省

项目地址: unslothai/unsloth | ⭐ 64K+ Stars | 🛠 Python | 🏢 Unsloth AI

老实说,搞过 LLM 微调的人都知道那有多折磨。装环境半天、跑一次训练等一宿、显存动不动就爆。以前要想微调一个 70B 模型,没个 A100 你都不好意思跟人打招呼。但 Unsloth 把这套流程砍到了几乎零门槛——64K+ Stars 不是白来的。

⚡ 一行命令装好

别整那些花里胡哨的,装 Unsloth 就一行:

curl -fsSL https://unsloth.ai/install.sh | sh

Windows 用户也一样:

irm https://unsloth.ai/install.ps1 | iex

装完直接起 Web UI:

unsloth studio -p 8888

浏览器打开 http://localhost:8888,你就有一个能跑能训的 LLM 环境了。要是想在 Docker 里跑:

docker run -d -e JUPYTER_PASSWORD="mypassword" \
  -p 8888:8888 -p 8000:8000 \
  --gpus all \
  unsloth/unsloth

🚀 训得快省得多

Unsloth 最骚的操作是它自研的 Triton 和数学 kernel——训练速度最高快 2 倍,显存占用最多省 70%。不是靠降精度换的,准确率不打折。

| 模型 | 速度提升 | 显存节省 |

|------|---------|---------|

| Qwen3.5 (4B) | 1.5x | 60% |

| gpt-oss (20B) | 2x | 70% |

| Llama 3.1 (8B) | 2x | 70% |

500+ 模型全支持,包括 Gemma 4、Qwen3.6、DeepSeek、Llama 4。我拿一张 RTX 4090 试过微调 8B 模型,以前不敢想的配置现在跑得挺欢。

🧠 强化学习也安排上了

一般人用不上 RL,但如果你要做推理模型(比如 DeepSeek-R1 那套),Unsloth 的 GRPO 实现比别家省 80% 显存。用 Python 调也不复杂:

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Qwen3.5-4B",
    max_seq_length=8192,
    load_in_4bit=True,
)

# 微调一行搞定
from unsloth import is_bfloat16_supported
from trl import GRPOConfig, GRPOTrainer

trainer = GRPOTrainer(
    model=model,
    args=GRPOConfig(
        learning_rate=5e-6,
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        bf16=is_bfloat16_supported(),
    ),
    train_dataset=dataset,
)
trainer.train()

踩过的坑都是泪——记得开 load_in_4bit,不然 4090 上 8B 模型训不起来。别问我怎么知道的。

🔌 还能当 API Server 用

最近 Unsloth 加了 API inference endpoint,训完的模型可以直接暴露给 Claude Code、Codex 这些工具用:

unsloth serve my-fine-tuned-model --port 8000

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed",
)
response = client.chat.completions.create(
    model="my-fine-tuned-model",
    messages=[{"role": "user", "content": "讲个冷笑话"}]
)
print(response.choices[0].message.content)

总结

  • 安装极简 — 一行命令装完,Web UI 开箱即用
  • 速度显存双优化 — 2x 训练速度,70% 显存节省,消费级显卡也能玩
  • 500+ 模型全覆盖 — Gemma、Qwen、Llama、DeepSeek 全支持
  • RL 不落 — GRPO 实现省 80% 显存,做推理模型无压力
  • 可当 API 用 — 训完直接 serve,兼容 OpenAI 接口
  • 老实说,如果你还在用手搓脚本搞微调,试试 Unsloth——省下来的时间够你摸好几天鱼了。


    评论