欣淇
发布于 2026-05-11 / 2 阅读
0
0

⚡ ds4.c:6k Stars,Redis 之父写的本地推理引擎,MacBook 上跑 DeepSeek V4 Flash,20+ t/s

⚡ ds4.c:6k Stars,Redis 之父写的本地推理引擎,MacBook 上跑 DeepSeek V4 Flash,20+ t/s

ds4.c 是 antirez(Salvatore Sanfilippo,Redis 的创造者)刚写的一个本地推理引擎。不是 Ollama wrapper,不是通用 GGUF runner——它只做一件事:在 Apple Silicon 上跑 DeepSeek V4 Flash,跑得快,跑得稳。

项目地址:https://github.com/antirez/ds4

Stars:6,032 ⭐(上线 4 天就 6k)

语言:C(Metal)

协议:MIT

作者:antirez(Redis 创始人,懂的都懂)

为什么单独为 DeepSeek V4 Flash 写个引擎?

antirez 在 README 里讲得挺直白。DeepSeek V4 Flash 是个 MoE 模型,284B 参数但每次只激活 37B,配上特别狠的 KV cache 压缩,让本地跑超大模型这件事变得实际了。

几点关键:

  • MoE 快——激活参数少,推理速度比同体量 dense 模型快一截
  • 思考链短——思维长度跟问题复杂度成正比,不会啥都编 5000 字内心戏
  • 1M tokens 上下文——KV cache 压缩后能存磁盘,128GB 机器的福音
  • 2-bit 量化也靠谱——MoE expert 用 IQ2_XXS,非 expert 层保持原精度,质量没崩
  • 最骚的是 KV cache 设计。antirez 认为 DeepSeek V4 的压缩 KV + MacBook 高速 SSD 应该改变我们的认知:KV cache 不一定要在内存里,它可以是磁盘的一等公民。

    上手实操

    硬件要求:MacBook Pro M3 Max / Mac Studio M3 Ultra,128GB+ RAM

    # 1. 下载项目
    git clone https://github.com/antirez/ds4.git
    cd ds4
    
    # 2. 下载 q2 量化版(128GB RAM 选这个)
    ./download_model.sh q2
    
    # 3. 编译
    make
    
    # 4. 命令行交互
    ./ds4
    
    # 或者启动 OpenAI 兼容 server
    ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
    

    实际速度(Mac Studio M3 Ultra, 512GB, q2):短提示生成 36.86 t/s,长上下文预填充 468 t/s。当本地编码助手的后端完全够用。

    接入你的 AI 工具

    ds4-server 暴露 OpenAI/Anthropic 兼容 API,主流工具都能接。

    Claude Code 包装脚本:

    #!/bin/sh
    export ANTHROPIC_BASE_URL="http://127.0.0.1:8000"
    export ANTHROPIC_AUTH_TOKEN="dsv4-local"
    export ANTHROPIC_MODEL="deepseek-v4-flash"
    export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
    export CLAUDE_STREAM_IDLE_TIMEOUT_MS=600000
    exec claude "$@"
    

    直接 curl 测一下:

    curl http://127.0.0.1:8000/v1/chat/completions \
      -H 'Content-Type: application/json' \
      -d '{
        "model":"deepseek-v4-flash",
        "messages":[{"role":"user","content":"Explain Redis streams in one paragraph."}],
        "stream":true
      }'
    

    踩坑提醒

  • CPU 路径有 macOS 虚拟内存 bug,会崩系统重启。别试,用 Metal
  • 只认项目提供的 GGUF 文件,通用 GGUF 加载不了
  • Think Max 模式只在上下文足够大时启用,小窗口自动降级
  • 首次启动 Claude Code 会发 ~25k tokens 的初始 prompt,开 --kv-disk-dir 让后续复用缓存
  • 要点总结:

  • antirez(Redis 之父)亲自写的 DeepSeek V4 Flash 专用推理引擎,4 天 6k Stars
  • Metal-only,MacBook M3 / Mac Studio 上跑 36+ t/s 生成速度
  • KV cache 存磁盘设计,1M 上下文在 128GB 机器上也能玩
  • 兼容 OpenAI/Anthropic API,Claude Code、opencode、Pi 都能接
  • Alpha 质量但日常可用,适合想本地跑大模型替代 API 调用的开发者

  • 评论