⚡ ds4.c:6k Stars,Redis 之父写的本地推理引擎,MacBook 上跑 DeepSeek V4 Flash,20+ t/s
ds4.c 是 antirez(Salvatore Sanfilippo,Redis 的创造者)刚写的一个本地推理引擎。不是 Ollama wrapper,不是通用 GGUF runner——它只做一件事:在 Apple Silicon 上跑 DeepSeek V4 Flash,跑得快,跑得稳。
项目地址:https://github.com/antirez/ds4
Stars:6,032 ⭐(上线 4 天就 6k)
语言:C(Metal)
协议:MIT
作者:antirez(Redis 创始人,懂的都懂)
为什么单独为 DeepSeek V4 Flash 写个引擎?
antirez 在 README 里讲得挺直白。DeepSeek V4 Flash 是个 MoE 模型,284B 参数但每次只激活 37B,配上特别狠的 KV cache 压缩,让本地跑超大模型这件事变得实际了。
几点关键:
最骚的是 KV cache 设计。antirez 认为 DeepSeek V4 的压缩 KV + MacBook 高速 SSD 应该改变我们的认知:KV cache 不一定要在内存里,它可以是磁盘的一等公民。
上手实操
硬件要求:MacBook Pro M3 Max / Mac Studio M3 Ultra,128GB+ RAM
# 1. 下载项目
git clone https://github.com/antirez/ds4.git
cd ds4
# 2. 下载 q2 量化版(128GB RAM 选这个)
./download_model.sh q2
# 3. 编译
make
# 4. 命令行交互
./ds4
# 或者启动 OpenAI 兼容 server
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
实际速度(Mac Studio M3 Ultra, 512GB, q2):短提示生成 36.86 t/s,长上下文预填充 468 t/s。当本地编码助手的后端完全够用。
接入你的 AI 工具
ds4-server 暴露 OpenAI/Anthropic 兼容 API,主流工具都能接。
Claude Code 包装脚本:
#!/bin/sh
export ANTHROPIC_BASE_URL="http://127.0.0.1:8000"
export ANTHROPIC_AUTH_TOKEN="dsv4-local"
export ANTHROPIC_MODEL="deepseek-v4-flash"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_STREAM_IDLE_TIMEOUT_MS=600000
exec claude "$@"
直接 curl 测一下:
curl http://127.0.0.1:8000/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{
"model":"deepseek-v4-flash",
"messages":[{"role":"user","content":"Explain Redis streams in one paragraph."}],
"stream":true
}'
踩坑提醒
--kv-disk-dir 让后续复用缓存要点总结: