⚡ Unsloth：64k Stars 的开源 LLM 微调神器，2 倍训练速度 + 70% 显存节省

项目地址： unslothai/unsloth | ⭐ 64K+ Stars | 🛠 Python | 🏢 Unsloth AI

老实说，搞过 LLM 微调的人都知道那有多折磨。装环境半天、跑一次训练等一宿、显存动不动就爆。以前要想微调一个 70B 模型，没个 A100 你都不好意思跟人打招呼。但 Unsloth 把这套流程砍到了几乎零门槛——64K+ Stars 不是白来的。

⚡ 一行命令装好

别整那些花里胡哨的，装 Unsloth 就一行：

curl -fsSL https://unsloth.ai/install.sh | sh

Windows 用户也一样：

irm https://unsloth.ai/install.ps1 | iex

装完直接起 Web UI：

unsloth studio -p 8888

浏览器打开 http://localhost:8888，你就有一个能跑能训的 LLM 环境了。要是想在 Docker 里跑：

docker run -d -e JUPYTER_PASSWORD="mypassword" \
  -p 8888:8888 -p 8000:8000 \
  --gpus all \
  unsloth/unsloth

🚀 训得快省得多

Unsloth 最骚的操作是它自研的 Triton 和数学 kernel——训练速度最高快 2 倍，显存占用最多省 70%。不是靠降精度换的，准确率不打折。

| 模型 | 速度提升 | 显存节省 |

|------|---------|---------|

| Qwen3.5 (4B) | 1.5x | 60% |

| gpt-oss (20B) | 2x | 70% |

| Llama 3.1 (8B) | 2x | 70% |

500+ 模型全支持，包括 Gemma 4、Qwen3.6、DeepSeek、Llama 4。我拿一张 RTX 4090 试过微调 8B 模型，以前不敢想的配置现在跑得挺欢。

🧠 强化学习也安排上了

一般人用不上 RL，但如果你要做推理模型（比如 DeepSeek-R1 那套），Unsloth 的 GRPO 实现比别家省 80% 显存。用 Python 调也不复杂：

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Qwen3.5-4B",
    max_seq_length=8192,
    load_in_4bit=True,
)

# 微调一行搞定
from unsloth import is_bfloat16_supported
from trl import GRPOConfig, GRPOTrainer

trainer = GRPOTrainer(
    model=model,
    args=GRPOConfig(
        learning_rate=5e-6,
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        bf16=is_bfloat16_supported(),
    ),
    train_dataset=dataset,
)
trainer.train()

踩过的坑都是泪——记得开 load_in_4bit，不然 4090 上 8B 模型训不起来。别问我怎么知道的。

🔌 还能当 API Server 用

最近 Unsloth 加了 API inference endpoint，训完的模型可以直接暴露给 Claude Code、Codex 这些工具用：

unsloth serve my-fine-tuned-model --port 8000

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed",
)
response = client.chat.completions.create(
    model="my-fine-tuned-model",
    messages=[{"role": "user", "content": "讲个冷笑话"}]
)
print(response.choices[0].message.content)

总结

安装极简 — 一行命令装完，Web UI 开箱即用

速度显存双优化 — 2x 训练速度，70% 显存节省，消费级显卡也能玩

500+ 模型全覆盖 — Gemma、Qwen、Llama、DeepSeek 全支持

RL 不落 — GRPO 实现省 80% 显存，做推理模型无压力

可当 API 用 — 训完直接 serve，兼容 OpenAI 接口

老实说，如果你还在用手搓脚本搞微调，试试 Unsloth——省下来的时间够你摸好几天鱼了。

菜单

分享

⚡ Unsloth：64k Stars 的开源 LLM 微调神器，2 倍训练速度 + 70% 显存节省

⚡ 一行命令装好

🚀 训得快省得多

🧠 强化学习也安排上了

🔌 还能当 API Server 用

总结

评论

🧠 Mem0：55k Stars 的开源 AI 记忆层，pip install 让你的 Agent 不再"转头就忘" / Mem0: 55k Stars Open-Source Memory Layer for AI Agents

🐺 OpenFang：17.5k Stars 的开源 Agent 操作系统，装了它你的 Agent 就自己干活了

🤖 AionUi：25k Stars 的开源 AI 协作桌面，一个 App 管理所有 Coding Agent / AionUi: Free Open-Source Multi-Agent Cowork Desktop

🍒 Cherry Studio：45k Stars 的跨平台 AI 桌面客户端，一个 App 装下所有大模型

⚡ Mastra：23.9k Stars 的 TypeScript AI Agent 框架，Gatsby 团队出品，一行命令搭好生产级 Agent

🎨 Taste Skill：17k Stars 的 Anti-Slop 前端框架，一句命令让 AI 不再生成丑界面

⚡ Agno：40k Stars 的一站式 Agent 平台 SDK，20 行代码搭出生产级 AI 应用

🔥 GenericAgent：11.4k Stars 的自我进化 Agent，3K 行代码长出专属技能树

🎯 Page Agent：17.8k Stars，阿里开源的 JavaScript 页面 GUI Agent，一行代码给你的网页装上 AI

🦌 DeerFlow：ByteDance's 67k Stars SuperAgent Harness，三行命令跑起一个 Agent 团队