欣淇
发布于 2026-05-18 / 0 阅读
0
0

🔥 DwarfStar 4 (ds4):antirez 出品 10.3k Stars 的 DeepSeek V4 Flash 本地推理引擎,一行 make 就跑

🔥 DwarfStar 4 (ds4):antirez 出品 10.3k Stars 的 DeepSeek V4 Flash 本地推理引擎,一行 make 就跑

项目地址:github.com/antirez/ds4 | ⭐ 10.3k Stars | 🛠 C | 作者 antirez (Redis 作者) | 📜 MIT


老实说,自从 DeepSeek V4 Flash 发布以来,我一直想找个能在本地跑起来的方案。vLLM?太重量级。llama.cpp?它要支持几百个模型,对 DS4 的优化不可能做到极致。所以当 Redis 的作者 antirez 甩出这个项目的时候,我直接就说——这玩意儿就是我要的。

为什么 DS4 值得单独一个引擎

DwarfStar 4(简称 ds4)不是又一个 GGUF 加载器,它是专为 DeepSeek V4 Flash 量身定做的原生推理引擎。从底层 Metal/CUDA kernel 到上层 HTTP API,全部手写,不依赖任何运行时。

antirez 选了 DS4 的几个理由很硬核:

  • 284B 参数,但因为是 MoE,每步只激活 37B,比同尺寸 dense 模型快得多
  • 1M token 上下文窗口,KV cache 压缩得极其夸张,还能持久化到磁盘
  • 2-bit 量化在 MacBook 96GB 上就能跑,128GB 上 250k 上下文毫无压力
  • Thinking 模式的思考长度跟问题复杂度成正比,不像某些模型动不动给你写五千字的内心独白

安装:一条命令搞定

git clone https://github.com/antirez/ds4
cd ds4

# 下载模型(96/128GB 推荐 q2-imatrix)
./download_model.sh q2-imatrix

# 编译
make                  # macOS Metal
# make cuda-spark     # Linux CUDA (DGX Spark)
# make cuda-generic   # Linux CUDA (其他 GPU)

编译完你就有了三个二进制文件:./ds4(CLI)、./ds4-server(HTTP 服务)、./ds4-bench(性能测试)。

CLI 模式

# 一次性提问
./ds4 -p "用中文解释一下 Redis 的 stream 数据结构"

# 交互模式(默认启用 thinking)
./ds4
ds4> 帮我写一个 Python 异步 WebSocket 客户端

默认启用 thinking 模式,想关掉用 /nothink。交互模式保留上下文,支持多轮对话。

Server 模式

启动一个 OpenAI/Anthropic 兼容的 HTTP 服务:

./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

然后任何 OpenAI SDK 都能调:

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [{"role": "user", "content": "写一段 Go 的并发代码"}],
    "stream": true
  }'

支持 /v1/chat/completions/v1/responses(Codex CLI 专用)、/v1/messages(Anthropic 兼容)。Tool calling 走 DSML 格式,自动映射回 OpenAI tool calls。最骚的是还能跑在 DGX Spark 上,antirez 专门做了优化。

速度表现

antirez 贴了实际跑分数据。M3 Max 128GB 上 q2 量化跑 1 万 token 预填充 250 t/s,生成 21 t/s;M3 Ultra 512GB 上 q4 量化跑 预填充 448 t/s,生成 26 t/s。这些数字对 Coding Agent 场景来说完全够用——思考速度跟得上你敲代码的速度。

ds4 还在项目里内置了一个 92 道题的评测集(GPQA Diamond + SuperGPQA + AIME 2025 + COMPSEC),每次改完 kernel 跑一遍就知道有没有退步。

踩坑

  • 目前只有 macOS Metal 和 Linux CUDA,AMD ROCm 在独立分支,antirez 没硬件测不了
  • 2-bit 量化不是开玩笑的,但 antirez 做了非对称量化:只有 routed MoE experts 被量化到 IQ2_XXS,shared experts 和 projections 保持原样,所以质量还行
  • Alpha 质量——项目才出来两周,遇到问题记得开 --trace 再提 issue
  • macOS 上别跑 CPU 模式,有个 VM 内核 bug 会让系统直接崩掉。别问我怎么知道的

总结

  • antirez(Redis 作者)出品,专为 DeepSeek V4 Flash 量身定做的原生推理引擎
  • 从 Metal/CUDA kernel 到 HTTP API 全部自包含,一行 make 编译
  • 支持 OpenAI / Anthropic 兼容 API,可以直接给 Coding Agent 用
  • 2-bit 量化在 MacBook 96/128GB 上就能跑,q4 在 M3 Ultra 上 35 t/s
  • Alpha 阶段,功能齐全但坑不少,适合愿意折腾的人

标签:#DeepSeek #LocalInference #AI #LLM #antirez


评论