cat > /tmp/auto_article.md << 'ARTICLE'

🤖 Autoresearch (karpathy)：81.5k★，让 AI Agent 替你跑一夜的 LLM 实验，醒来就有更好的模型

Autoresearch: 81.5k Stars — Let AI Agents Run LLM Experiments Overnight, Wake Up to a Better Model

Karpathy 在 2026 年 3 月丢出来的项目，一句话概括：给 AI Agent 一个真实的单 GPU 训练环境，让它自己改代码、自己跑实验、自己判断好坏，你在旁边睡觉就行。

跟那些"用 AI 帮你写论文摘要"的玩意不一样，autoresearch 是真的让 Agent 动手改 train.py 里的模型架构、优化器、超参数。训练跑固定 5 分钟，完了看 val_bpb（越低越好），Agent 自己决定要不要保留修改。一晚上大概能跑 100 轮实验。

怎么工作的

整个 repo 就三个核心文件：

prepare.py      — 数据下载 + 分词器训练（固定不动）
train.py        — 模型 + 优化器 + 训练循环（Agent 天天改这个）
program.md      — Agent 的"工作说明书"（你来写）

train.py 包含完整的 GPT 模型、Muon + AdamW 优化器、训练循环。Agent 可以动任何东西：换架构、调学习率、改 batch size、加新的 loss 项。每次实验固定 5 分钟墙钟时间，不管你的 GPU 是 H100 还是 4090，时间到了就停，对比结果。

# 装 uv（如果还没装）
curl -LsSf https://astral.sh/uv/install.sh | sh

# 装依赖
uv sync

# 一次性数据准备（约 2 分钟）
uv run prepare.py

# 手动跑一轮测试（约 5 分钟）
uv run train.py

上面几步跑通说明环境就绪了。然后开你的 Claude Code / Codex：

Hi have a look at program.md and let's kick off a new experiment! let's do the setup first.

Agent 就会读 program.md，开始改代码、跑实验、记录结果。

三个设计选择让这个项目跟别家不一样：

"One day, frontier AI research used to be done by meat computers... That era is long gone." — @karpathy, March 2026