欣淇
发布于 2026-05-17 / 0 阅读
0
0

🤖 Autoresearch (karpathy):81.5k★,让 AI Agent 替你跑一夜的 LLM 实验,醒来就有更好的模型

cat > /tmp/auto_article.md << 'ARTICLE'

🤖 Autoresearch (karpathy):81.5k★,让 AI Agent 替你跑一夜的 LLM 实验,醒来就有更好的模型

Autoresearch: 81.5k Stars — Let AI Agents Run LLM Experiments Overnight, Wake Up to a Better Model


Karpathy 在 2026 年 3 月丢出来的项目,一句话概括:给 AI Agent 一个真实的单 GPU 训练环境,让它自己改代码、自己跑实验、自己判断好坏,你在旁边睡觉就行。

跟那些"用 AI 帮你写论文摘要"的玩意不一样,autoresearch 是真的让 Agent 动手改 train.py 里的模型架构、优化器、超参数。训练跑固定 5 分钟,完了看 val_bpb(越低越好),Agent 自己决定要不要保留修改。一晚上大概能跑 100 轮实验。

怎么工作的

整个 repo 就三个核心文件:

prepare.py      — 数据下载 + 分词器训练(固定不动)
train.py        — 模型 + 优化器 + 训练循环(Agent 天天改这个)
program.md      — Agent 的"工作说明书"(你来写)

train.py 包含完整的 GPT 模型、Muon + AdamW 优化器、训练循环。Agent 可以动任何东西:换架构、调学习率、改 batch size、加新的 loss 项。每次实验固定 5 分钟墙钟时间,不管你的 GPU 是 H100 还是 4090,时间到了就停,对比结果。

真正装起来跑

# 装 uv(如果还没装)
curl -LsSf https://astral.sh/uv/install.sh | sh

# 装依赖
uv sync

# 一次性数据准备(约 2 分钟)
uv run prepare.py

# 手动跑一轮测试(约 5 分钟)
uv run train.py

上面几步跑通说明环境就绪了。然后开你的 Claude Code / Codex:

Hi have a look at program.md and let's kick off a new experiment! let's do the setup first.

Agent 就会读 program.md,开始改代码、跑实验、记录结果。

为什么有意思

三个设计选择让这个项目跟别家不一样:

  1. 只改一个文件。 Agent 只动 train.py,diff 可审查,不会被 Agent 搞得乱七八糟。
  2. 固定 5 分钟时间预算。 不管 GPU 型号,每次实验时间一样,实验结果可以直接对比。一晚 ≈ 100 轮实验。
  3. 完全自包含。 除了 PyTorch 没别的依赖,不需要分布式训练,不需要复杂配置。一张 GPU,一个文件,一个指标。

你能拿它干嘛

  • 睡前开一轮,早上看 log 发现模型 bpb 降了 0.3
  • 写不同的 program.md,让 Agent 尝试不同的研究方向(比如调参 vs 换架构)
  • 对比不同的 Agent(Claude Code vs Codex)在"自动做科研"上的表现

"One day, frontier AI research used to be done by meat computers... That era is long gone." — @karpathy, March 2026


评论