🔥 DwarfStar 4 (ds4):antirez 出品 10.3k Stars 的 DeepSeek V4 Flash 本地推理引擎,一行 make 就跑
项目地址:github.com/antirez/ds4 | ⭐ 10.3k Stars | 🛠 C | 作者 antirez (Redis 作者) | 📜 MIT
老实说,自从 DeepSeek V4 Flash 发布以来,我一直想找个能在本地跑起来的方案。vLLM?太重量级。llama.cpp?它要支持几百个模型,对 DS4 的优化不可能做到极致。所以当 Redis 的作者 antirez 甩出这个项目的时候,我直接就说——这玩意儿就是我要的。
为什么 DS4 值得单独一个引擎
DwarfStar 4(简称 ds4)不是又一个 GGUF 加载器,它是专为 DeepSeek V4 Flash 量身定做的原生推理引擎。从底层 Metal/CUDA kernel 到上层 HTTP API,全部手写,不依赖任何运行时。
antirez 选了 DS4 的几个理由很硬核:
- 284B 参数,但因为是 MoE,每步只激活 37B,比同尺寸 dense 模型快得多
- 1M token 上下文窗口,KV cache 压缩得极其夸张,还能持久化到磁盘
- 2-bit 量化在 MacBook 96GB 上就能跑,128GB 上 250k 上下文毫无压力
- Thinking 模式的思考长度跟问题复杂度成正比,不像某些模型动不动给你写五千字的内心独白
安装:一条命令搞定
git clone https://github.com/antirez/ds4
cd ds4
# 下载模型(96/128GB 推荐 q2-imatrix)
./download_model.sh q2-imatrix
# 编译
make # macOS Metal
# make cuda-spark # Linux CUDA (DGX Spark)
# make cuda-generic # Linux CUDA (其他 GPU)
编译完你就有了三个二进制文件:./ds4(CLI)、./ds4-server(HTTP 服务)、./ds4-bench(性能测试)。
CLI 模式
# 一次性提问
./ds4 -p "用中文解释一下 Redis 的 stream 数据结构"
# 交互模式(默认启用 thinking)
./ds4
ds4> 帮我写一个 Python 异步 WebSocket 客户端
默认启用 thinking 模式,想关掉用 /nothink。交互模式保留上下文,支持多轮对话。
Server 模式
启动一个 OpenAI/Anthropic 兼容的 HTTP 服务:
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
然后任何 OpenAI SDK 都能调:
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-flash",
"messages": [{"role": "user", "content": "写一段 Go 的并发代码"}],
"stream": true
}'
支持 /v1/chat/completions、/v1/responses(Codex CLI 专用)、/v1/messages(Anthropic 兼容)。Tool calling 走 DSML 格式,自动映射回 OpenAI tool calls。最骚的是还能跑在 DGX Spark 上,antirez 专门做了优化。
速度表现
antirez 贴了实际跑分数据。M3 Max 128GB 上 q2 量化跑 1 万 token 预填充 250 t/s,生成 21 t/s;M3 Ultra 512GB 上 q4 量化跑 预填充 448 t/s,生成 26 t/s。这些数字对 Coding Agent 场景来说完全够用——思考速度跟得上你敲代码的速度。
ds4 还在项目里内置了一个 92 道题的评测集(GPQA Diamond + SuperGPQA + AIME 2025 + COMPSEC),每次改完 kernel 跑一遍就知道有没有退步。
踩坑
- 目前只有 macOS Metal 和 Linux CUDA,AMD ROCm 在独立分支,antirez 没硬件测不了
- 2-bit 量化不是开玩笑的,但 antirez 做了非对称量化:只有 routed MoE experts 被量化到 IQ2_XXS,shared experts 和 projections 保持原样,所以质量还行
- Alpha 质量——项目才出来两周,遇到问题记得开
--trace再提 issue - macOS 上别跑 CPU 模式,有个 VM 内核 bug 会让系统直接崩掉。别问我怎么知道的
总结
- antirez(Redis 作者)出品,专为 DeepSeek V4 Flash 量身定做的原生推理引擎
- 从 Metal/CUDA kernel 到 HTTP API 全部自包含,一行
make编译 - 支持 OpenAI / Anthropic 兼容 API,可以直接给 Coding Agent 用
- 2-bit 量化在 MacBook 96/128GB 上就能跑,q4 在 M3 Ultra 上 35 t/s
- Alpha 阶段,功能齐全但坑不少,适合愿意折腾的人
标签:#DeepSeek #LocalInference #AI #LLM #antirez