🔥 DwarfStar 4 (ds4)：antirez 出品 10.3k Stars 的 DeepSeek V4 Flash 本地推理引擎，一行 make 就跑

项目地址：github.com/antirez/ds4 | ⭐ 10.3k Stars | 🛠 C | 作者 antirez (Redis 作者) | 📜 MIT

老实说，自从 DeepSeek V4 Flash 发布以来，我一直想找个能在本地跑起来的方案。vLLM？太重量级。llama.cpp？它要支持几百个模型，对 DS4 的优化不可能做到极致。所以当 Redis 的作者 antirez 甩出这个项目的时候，我直接就说——这玩意儿就是我要的。

为什么 DS4 值得单独一个引擎

DwarfStar 4（简称 ds4）不是又一个 GGUF 加载器，它是专为 DeepSeek V4 Flash 量身定做的原生推理引擎。从底层 Metal/CUDA kernel 到上层 HTTP API，全部手写，不依赖任何运行时。

antirez 选了 DS4 的几个理由很硬核：

284B 参数，但因为是 MoE，每步只激活 37B，比同尺寸 dense 模型快得多
1M token 上下文窗口，KV cache 压缩得极其夸张，还能持久化到磁盘
2-bit 量化在 MacBook 96GB 上就能跑，128GB 上 250k 上下文毫无压力
Thinking 模式的思考长度跟问题复杂度成正比，不像某些模型动不动给你写五千字的内心独白

安装：一条命令搞定

git clone https://github.com/antirez/ds4
cd ds4

# 下载模型（96/128GB 推荐 q2-imatrix）
./download_model.sh q2-imatrix

# 编译
make                  # macOS Metal
# make cuda-spark     # Linux CUDA (DGX Spark)
# make cuda-generic   # Linux CUDA (其他 GPU)

编译完你就有了三个二进制文件：./ds4（CLI）、./ds4-server（HTTP 服务）、./ds4-bench（性能测试）。

CLI 模式

# 一次性提问
./ds4 -p "用中文解释一下 Redis 的 stream 数据结构"

# 交互模式（默认启用 thinking）
./ds4
ds4> 帮我写一个 Python 异步 WebSocket 客户端

默认启用 thinking 模式，想关掉用 /nothink。交互模式保留上下文，支持多轮对话。

Server 模式

启动一个 OpenAI/Anthropic 兼容的 HTTP 服务：

./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

然后任何 OpenAI SDK 都能调：

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [{"role": "user", "content": "写一段 Go 的并发代码"}],
    "stream": true
  }'

支持 /v1/chat/completions、/v1/responses（Codex CLI 专用）、/v1/messages（Anthropic 兼容）。Tool calling 走 DSML 格式，自动映射回 OpenAI tool calls。最骚的是还能跑在 DGX Spark 上，antirez 专门做了优化。

速度表现

antirez 贴了实际跑分数据。M3 Max 128GB 上 q2 量化跑 1 万 token 预填充 250 t/s，生成 21 t/s；M3 Ultra 512GB 上 q4 量化跑 预填充 448 t/s，生成 26 t/s。这些数字对 Coding Agent 场景来说完全够用——思考速度跟得上你敲代码的速度。

ds4 还在项目里内置了一个 92 道题的评测集（GPQA Diamond + SuperGPQA + AIME 2025 + COMPSEC），每次改完 kernel 跑一遍就知道有没有退步。

踩坑

目前只有 macOS Metal 和 Linux CUDA，AMD ROCm 在独立分支，antirez 没硬件测不了
2-bit 量化不是开玩笑的，但 antirez 做了非对称量化：只有 routed MoE experts 被量化到 IQ2_XXS，shared experts 和 projections 保持原样，所以质量还行
Alpha 质量——项目才出来两周，遇到问题记得开 --trace 再提 issue
macOS 上别跑 CPU 模式，有个 VM 内核 bug 会让系统直接崩掉。别问我怎么知道的

总结

antirez（Redis 作者）出品，专为 DeepSeek V4 Flash 量身定做的原生推理引擎
从 Metal/CUDA kernel 到 HTTP API 全部自包含，一行 make 编译
支持 OpenAI / Anthropic 兼容 API，可以直接给 Coding Agent 用
2-bit 量化在 MacBook 96/128GB 上就能跑，q4 在 M3 Ultra 上 35 t/s
Alpha 阶段，功能齐全但坑不少，适合愿意折腾的人

标签：#DeepSeek #LocalInference #AI #LLM #antirez

菜单

分享

🔥 DwarfStar 4 (ds4)：antirez 出品 10.3k Stars 的 DeepSeek V4 Flash 本地推理引擎，一行 make 就跑

为什么 DS4 值得单独一个引擎

安装：一条命令搞定

CLI 模式

Server 模式

速度表现

踩坑

总结

评论

🔥 Firecrawl：122,083 stars 的 AI 网页抓取 API，让 LLM 直接读取互联网数据

[📚] prompts.chat：14.3 万星开源提示词库，一个文件搞定 Prompt

[🛠️ ECC：182K stars 的 AI Agent 调度系统，一套技能打穿七种工具]

[⛏] caveman：让 AI 少说废话，输出 token 砍掉百分之七十五

[🦀] Claw Code：用 Rust 重写的 Claude CLI 智能体工具链

[🛠️] Superpowers：一个可多人协作的 HTML5 游戏开发 IDE

🤖 AutoGPT：让AI替你打工，全天候自动执行复杂任务

🚀 MetaGPT：6.8万 Stars 的多智能体框架，一句话生成完整软件项目

[📚] generative-ai-for-beginners：微软21节课带你从零搭建生成式AI应用

[🔧] Semantic Kernel：一个 SDK 打通多模型、多 Agent、多语言的企业级编排框架