🧠 MiniMind：3 块钱 + 2 小时，从零训一个 64M 参数的 LLM

项目地址： jingyaogong/minimind | ⭐ 50k+ Stars

不是改几行配置、LoRA 微调一下完事，是真正的"从头实现"——从词表、预训练、SFT 到 RLHF/PPO/GRPO，全程不依赖 transformers/trl/peft 封装，每一行代码都裸写 PyTorch。

等等，64M？能干啥？

别急着下结论。GPT-3 是 175B，64M ≈ GPT-3 的 1/2700。但 MiniMind 的野心不是"跑分赢 GPT"，而是让任何有单张 3090 的人，花一杯咖啡的钱，完整走一遍 LLM 训练全流程。

数据很真实：pretrain_t2t_mini (1.2G) + sft_t2t_mini (1.6G)，单卡 3090 跑 1 epoch 只要 ~2.3 小时，成本约 3 块钱。

# 克隆 + 装依赖
git clone --depth 1 https://github.com/jingyaogong/minimind
cd minimind && pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple

完整训练链路

MiniMind 覆盖了一条很完整的 LLM 训练流水线：

1. 预训练（Pretrain）

模型先"埋头读书"，从海量文本学语言规律。纯粹的 next-token-prediction，无监督。

cd trainer && python train_pretrain.py

输出：out/pretrain_768.pth

2. 指令微调（SFT）

让模型学会对话格式、工具调用、思考链——不仅仅是"会聊天"，21G 的 SFT 数据把新知识也塞了进去。

cd trainer && python train_full_sft.py

输出：out/full_sft_768.pth

3. 强化学习（DPO / PPO / GRPO）

从人类偏好对齐到 AI 反馈强化学习，PPO、GRPO、CISPO 全部原生实现。

cd trainer && python train_dpo.py    # 人类偏好对齐
cd trainer && python train_rlaif.py  # AI 反馈 RL（PPO/GRPO）

4. Agentic RL（2026 新特性）

多轮 Tool Use 场景的 GRPO/CISPO 训练，让模型学会"调工具 → 拿结果 → 再推理"的闭环：

cd trainer && python train_agent.py

效果对比（20 道数学 ToolUse 题）：agent 权重 85% vs full_sft 权重 60% — RL 确实有用。

[full_sft] 12/20 = 60.00%
[agent]    17/20 = 85.00%

不只是训练，推理也能玩

训练完可以直接 CLI 对话：

python eval_llm.py --load_from ./minimind-3

或者用 Transformers 格式跑兼容框架：

# ollama
ollama run jingyaogong/minimind-3

# vllm
vllm serve /path/to/model --served-model-name "minimind"

# llama.cpp
# 先转换 GGUF
python convert_hf_to_gguf.py /path/to/minimind-model
# 然后推理
./build/bin/llama-cli -m /path/to/model/xxxx.gguf

API 服务也兼容 OpenAI 格式，支持 reasoning_content、tool_calls、open_thinking 扩展字段：

cd scripts && python serve_openai_api.py

# 测试工具调用
python eval_toolcall.py --weight full_sft

值不值得折腾？

如果你只是想调个 API 写代码，MiniMind 不适合你。但如果你想理解 Transformer 内部到底怎么运作、想亲手走一遍从数据到权重的全过程，这个项目是目前中文社区里最完整、最接地气的选择。

作者说得好："用乐高自己拼出一架飞机，远比坐在头等舱里飞行更让人兴奋。"

🧪 3 块钱的成本，换一份对 LLM 底层逻辑的透彻理解。反正我觉得挺值。

关键词： MiniMind, 从零训练大模型, LLM 训练教程, PyTorch, SFT, RLHF, GRPO, Tool Calling, 开源 AI 项目, 小参数量语言模型

菜单

分享

🧠 MiniMind：3 块钱 + 2 小时，从零训一个 64M 参数的 LLM

🧠 MiniMind：3 块钱 + 2 小时，从零训一个 64M 参数的 LLM

等等，64M？能干啥？

完整训练链路

1. 预训练（Pretrain）

2. 指令微调（SFT）

3. 强化学习（DPO / PPO / GRPO）

4. Agentic RL（2026 新特性）

不只是训练，推理也能玩

值不值得折腾？

评论

📖 InkOS：6.1k Stars 的自动化小说写作 AI Agent，让它替你写完一整本小说

🧠 MiniMind：3 块钱 + 2 小时，从零训一个 64M 参数的 LLM

🚀 GSD (Get Shit Done)：62.5k Stars 的 Claude Code 开发系统，6 个命令解决上下文膨胀问题 / GSD (Get Shit Done): 62.5k Stars — 6 Commands to Solve Context Rot in Claude Code

🕶️ CloakBrowser：12.6k Stars 的隐身 Chromium，换三行代码绕过所有反爬检测

📈 Marketing Skills：29k Stars 的 AI Agent 营销技能包，让 Claude Code 帮你做增长

🔥 SoftwareCopyright Skill：3k Stars 的 Codex 软著自动生成器，不用再花几百块找人代办 / SoftwareCopyright Skill: 3k Stars — Your Codex-Powered Software Copyright Generator, Stop Paying for Paperwork

🚀 FastMCP：25k Stars 的 MCP 服务器框架，70% 的 MCP 服务器都靠它跑 / FastMCP: 25k Stars — the Pythonic MCP Framework Powering 70% of MCP Servers

🚀 Activepieces：22.2k Stars 的开源 Zapier 替代品，280+ 集成全是 MCP 服务器 / Activepieces: 22.2k Stars Open-Source Zapier Alternative — 280+ Pieces, All Available as MCP Servers

⚡ Zero：Vercel Labs 出品 865★ 的 Agent 编程语言，一个 curl 命令安装，专为 AI Agent 写原生工具而生

🎯 open-slide：3.3k Stars 的 AI Agent 幻灯片框架，一句话让 Agent 帮你做 PPT