欣淇
发布于 2026-05-17 / 0 阅读
0
0

🧠 MiniMind:3 块钱 + 2 小时,从零训一个 64M 参数的 LLM

🧠 MiniMind:3 块钱 + 2 小时,从零训一个 64M 参数的 LLM

项目地址: jingyaogong/minimind | ⭐ 50k+ Stars

不是改几行配置、LoRA 微调一下完事,是真正的"从头实现"——从词表、预训练、SFT 到 RLHF/PPO/GRPO,全程不依赖 transformers/trl/peft 封装,每一行代码都裸写 PyTorch。


等等,64M?能干啥?

别急着下结论。GPT-3 是 175B,64M ≈ GPT-3 的 1/2700。但 MiniMind 的野心不是"跑分赢 GPT",而是让任何有单张 3090 的人,花一杯咖啡的钱,完整走一遍 LLM 训练全流程

数据很真实:pretrain_t2t_mini (1.2G) + sft_t2t_mini (1.6G),单卡 3090 跑 1 epoch 只要 ~2.3 小时,成本约 3 块钱

# 克隆 + 装依赖
git clone --depth 1 https://github.com/jingyaogong/minimind
cd minimind && pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple

完整训练链路

MiniMind 覆盖了一条很完整的 LLM 训练流水线:

1. 预训练(Pretrain)

模型先"埋头读书",从海量文本学语言规律。纯粹的 next-token-prediction,无监督。

cd trainer && python train_pretrain.py

输出:out/pretrain_768.pth

2. 指令微调(SFT)

让模型学会对话格式、工具调用、思考链——不仅仅是"会聊天",21G 的 SFT 数据把新知识也塞了进去。

cd trainer && python train_full_sft.py

输出:out/full_sft_768.pth

3. 强化学习(DPO / PPO / GRPO)

从人类偏好对齐到 AI 反馈强化学习,PPO、GRPO、CISPO 全部原生实现。

cd trainer && python train_dpo.py    # 人类偏好对齐
cd trainer && python train_rlaif.py  # AI 反馈 RL(PPO/GRPO)

4. Agentic RL(2026 新特性)

多轮 Tool Use 场景的 GRPO/CISPO 训练,让模型学会"调工具 → 拿结果 → 再推理"的闭环:

cd trainer && python train_agent.py

效果对比(20 道数学 ToolUse 题):agent 权重 85% vs full_sft 权重 60% — RL 确实有用。

[full_sft] 12/20 = 60.00%
[agent]    17/20 = 85.00%

不只是训练,推理也能玩

训练完可以直接 CLI 对话:

python eval_llm.py --load_from ./minimind-3

或者用 Transformers 格式跑兼容框架:

# ollama
ollama run jingyaogong/minimind-3

# vllm
vllm serve /path/to/model --served-model-name "minimind"

# llama.cpp
# 先转换 GGUF
python convert_hf_to_gguf.py /path/to/minimind-model
# 然后推理
./build/bin/llama-cli -m /path/to/model/xxxx.gguf

API 服务也兼容 OpenAI 格式,支持 reasoning_contenttool_callsopen_thinking 扩展字段:

cd scripts && python serve_openai_api.py

# 测试工具调用
python eval_toolcall.py --weight full_sft

值不值得折腾?

如果你只是想调个 API 写代码,MiniMind 不适合你。但如果你想理解 Transformer 内部到底怎么运作、想亲手走一遍从数据到权重的全过程,这个项目是目前中文社区里最完整、最接地气的选择。

作者说得好:"用乐高自己拼出一架飞机,远比坐在头等舱里飞行更让人兴奋。"


🧪 3 块钱的成本,换一份对 LLM 底层逻辑的透彻理解。反正我觉得挺值。


关键词: MiniMind, 从零训练大模型, LLM 训练教程, PyTorch, SFT, RLHF, GRPO, Tool Calling, 开源 AI 项目, 小参数量语言模型


评论