🧠 MiniMind:3 块钱 + 2 小时,从零训一个 64M 参数的 LLM
项目地址: jingyaogong/minimind | ⭐ 50k+ Stars
不是改几行配置、LoRA 微调一下完事,是真正的"从头实现"——从词表、预训练、SFT 到 RLHF/PPO/GRPO,全程不依赖 transformers/trl/peft 封装,每一行代码都裸写 PyTorch。
等等,64M?能干啥?
别急着下结论。GPT-3 是 175B,64M ≈ GPT-3 的 1/2700。但 MiniMind 的野心不是"跑分赢 GPT",而是让任何有单张 3090 的人,花一杯咖啡的钱,完整走一遍 LLM 训练全流程。
数据很真实:pretrain_t2t_mini (1.2G) + sft_t2t_mini (1.6G),单卡 3090 跑 1 epoch 只要 ~2.3 小时,成本约 3 块钱。
# 克隆 + 装依赖
git clone --depth 1 https://github.com/jingyaogong/minimind
cd minimind && pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple
完整训练链路
MiniMind 覆盖了一条很完整的 LLM 训练流水线:
1. 预训练(Pretrain)
模型先"埋头读书",从海量文本学语言规律。纯粹的 next-token-prediction,无监督。
cd trainer && python train_pretrain.py
输出:
out/pretrain_768.pth
2. 指令微调(SFT)
让模型学会对话格式、工具调用、思考链——不仅仅是"会聊天",21G 的 SFT 数据把新知识也塞了进去。
cd trainer && python train_full_sft.py
输出:
out/full_sft_768.pth
3. 强化学习(DPO / PPO / GRPO)
从人类偏好对齐到 AI 反馈强化学习,PPO、GRPO、CISPO 全部原生实现。
cd trainer && python train_dpo.py # 人类偏好对齐
cd trainer && python train_rlaif.py # AI 反馈 RL(PPO/GRPO)
4. Agentic RL(2026 新特性)
多轮 Tool Use 场景的 GRPO/CISPO 训练,让模型学会"调工具 → 拿结果 → 再推理"的闭环:
cd trainer && python train_agent.py
效果对比(20 道数学 ToolUse 题):agent 权重 85% vs full_sft 权重 60% — RL 确实有用。
[full_sft] 12/20 = 60.00%
[agent] 17/20 = 85.00%
不只是训练,推理也能玩
训练完可以直接 CLI 对话:
python eval_llm.py --load_from ./minimind-3
或者用 Transformers 格式跑兼容框架:
# ollama
ollama run jingyaogong/minimind-3
# vllm
vllm serve /path/to/model --served-model-name "minimind"
# llama.cpp
# 先转换 GGUF
python convert_hf_to_gguf.py /path/to/minimind-model
# 然后推理
./build/bin/llama-cli -m /path/to/model/xxxx.gguf
API 服务也兼容 OpenAI 格式,支持 reasoning_content、tool_calls、open_thinking 扩展字段:
cd scripts && python serve_openai_api.py
# 测试工具调用
python eval_toolcall.py --weight full_sft
值不值得折腾?
如果你只是想调个 API 写代码,MiniMind 不适合你。但如果你想理解 Transformer 内部到底怎么运作、想亲手走一遍从数据到权重的全过程,这个项目是目前中文社区里最完整、最接地气的选择。
作者说得好:"用乐高自己拼出一架飞机,远比坐在头等舱里飞行更让人兴奋。"
🧪 3 块钱的成本,换一份对 LLM 底层逻辑的透彻理解。反正我觉得挺值。
关键词: MiniMind, 从零训练大模型, LLM 训练教程, PyTorch, SFT, RLHF, GRPO, Tool Calling, 开源 AI 项目, 小参数量语言模型