欣淇
发布于 2026-05-13 / 1 阅读
0
0

🤖 karpathy/autoresearch:80k Stars,睡觉时让 AI 替你跑科研实验,醒来收获更好的模型

项目地址:https://github.com/karpathy/autoresearch | ⭐ 80,692 Stars | 🛠 Python | 作者:@karpathy

老实说,搞深度学习实验最烦人的不是写代码,是等人。训练一轮半小时,改个学习率又半小时,你盯着 terminal 发呆,脑子里全是"这参数到底对不对"。Karpathy 搞了个骚操作——让 AI Agent 替你连夜加班改代码、跑实验、看结果,睡醒直接拿更好的模型。

一、80k Stars 的项目长啥样

项目小得离谱,就三个文件:

prepare.py      — 数据下载 + 分词器训练(你不碰)
train.py        — 模型 + 优化器 + 训练循环(Agent 自己改)
program.md      — Agent 的指令(你写的「科研纲领」)

核心思路:固定 5 分钟训练时间,Agent 改 train.py,跑 5 分钟,看 val_bpb(越低越好),好了就保留,差了就回滚。一晚上大概 100 轮实验。

二、5 分钟跑起来

前提:一张 NVIDIA GPU(Karpathy 用的 H100),Python 3.10+,装好 uv。

# 1. 装 uv(没有的话)
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 装依赖
uv sync

# 3. 下载数据 + 训练分词器(一次性,约 2 分钟)
uv run prepare.py

# 4. 手动跑一次(5 分钟)
uv run train.py

跑通了就进入自动模式。

三、让 Agent 自己搞科研

在 repo 目录里拉起 Claude/Codex/OpenClaw,disable 权限(别让它乱删文件),然后丢一句:

Hi have a look at program.md and let's kick off a new experiment!

Agent 会读 program.md,理解实验目标,然后开始循环:改 train.py → 跑 5 分钟 → 看 val_bpb → 决定保留还是回滚。

四、设计上最骚的地方

固定时间预算是个聪明的设计。不管你在 H100 还是什么卡上跑,都是 5 分钟一轮,实验结果可直接对比。Agent 可以随便改模型大小、batch size、架构——反正 5 分钟计时器一到就停,比的就是在这个时间窗口里谁能训出最低的 val_bpb。

代价是不同平台的结果没法跨设备比较,但这本来就是给你自己熬夜用的,不需要跟别人比。

五、小显存怎么玩

没 H100 也没关系,改几个参数:

  • 数据集换 TinyStories(GPT-4 生成的短故事,熵更低)
  • 2. vocab_size 从 8192 降到 4096 甚至 256

    3. MAX_SEQ_LEN 降到 256,对应调大 DEVICE_BATCH_SIZE

    4. DEPTH 从 8 降到 4

    5. 注意力模式用 "L" 别用 "SSSL"

    社区已经出了 macOS(miolini/autoresearch-macos)、Windows(jsegov/autoresearch-win-rtx)、AMD 显卡的 fork,直接搜就行。

    总结:

  • 三个文件搞定 AI Agent 自动化科研实验
  • 固定 5 分钟时间预算,一宿 100 轮实验
  • uv run 三板斧就能开始跑
  • program.md 等于告诉 Agent「你想研究啥」
  • 小显存改 TinyStories + 降参数也能玩

  • 评论