欣淇
发布于 2026-05-09 / 2 阅读
0
0

NexaSDK:

🔥 NexaSDK:高通官方出品,手机上跑大模型,一行代码搞定

项目地址:qualcomm/nexa-sdk | ⭐ 8,000 Stars | 🛠 Go + Python + Kotlin | 作者:Qualcomm Nexa AI


老实说,手机跑大模型这个概念喊了好几年,但真正能做到"能用的"没几个。NexaSDK 是高通官方出的本地推理框架,让你在 Android、Windows、Linux 上用 NPU/GPU/CPU 跑前沿的多模态 AI 模型——而且只需要几行代码。

8k Stars、996 Forks、1,493 次提交,Qualcomm 官方博客连续推荐了 3 次。ProductHunt 日榜第一。不是玩具。

一、一句话概括

NexaSDK 是一个高性能的本地推理框架,特点是:

  • 支持 NPU / GPU / CPU——高通骁龙的 NPU 是它的主场
  • Day-0 模型支持——新模型发布几周内就能用上,比市面上其他方案快得多
  • 覆盖全平台:Android、Windows、Linux、Docker
  • 目前支持的模型包括 Qwen3-VL、DeepSeek-OCR、Gemma3n (Vision)、OmniNeural-4B、IBM Granite-4 等。

    二、安装即用

    CLI(最快上手)

    # 下载对应平台的 CLI 工具
    # Windows arm64(骁龙 NPU)、Windows x64、Linux arm64、Linux x64
    
    # 跑 Qwen3 对话
    nexa infer ggml-org/Qwen3-1.7B-GGUF
    
    # 多模态:拖图片进终端
    nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF
    
    # NPU 加速(Windows arm64,骁龙 X Elite)
    nexa infer NexaAI/OmniNeural-4B
    

    Python SDK(适合开发者)

    pip install nexaai
    

    from nexaai import LLM
    
    llm = LLM.from_(model="NexaAI/Qwen3-0.6B-GGUF")
    prompt = llm.apply_chat_template([
        {"role": "user", "content": "讲个冷笑话"}
    ])
    for token in llm.generate_stream(prompt):
        print(token, end="", flush=True)
    

    Android SDK(移动端部署)

    // build.gradle.kts
    dependencies {
        implementation("ai.nexa:core:0.0.19")
    }
    
    // 初始化 + 跑 VLM 模型
    NexaSdk.getInstance().init(this)
    VlmWrapper.builder()
        .vlmCreateInput(VlmCreateInput(
            model_name = "omni-neural",
            model_path = "/data/data/your.app/files/models/...",
            plugin_id = "npu"
        ))
        .build()
        .onSuccess { vlm ->
            vlm.generateStreamFlow("Hello!", GenerationConfig()).collect {
                print(it)
            }
        }
    

    三、为什么值得关注?

    说实话,市面上的本地推理框架不少(llama.cpp、MLC、MNN 等等),但 NexaSDK 有几个独特的优势:

    1. 高通亲儿子

    不是第三方适配,是高通官方团队在维护。对骁龙 NPU 的优化是原生的,不是"顺便支持"。

    2. 新模型跟进速度第一梯队

    Qualcomm 官方博客提到,他们在 Granite-4 发布当天就完成了 NPU 支持。这种 Day-0 支持力度,其他框架很难追。

    3. 全栈覆盖

    CLI 一把梭、Python 搞开发、Android SDK 做产品——不管你是想自己玩还是嵌入到 App 里,都有对应的 SDK。

    四、NPU 加速怎么用?

    需要设置一个 access token(免费,高通提供的开发者 token):

    export NEXA_TOKEN="key/eyJhY2NvdW50I..."
    

    目前 NPU 加速支持 Windows arm64(骁龙 X Elite)和 Docker(骁龙 Dragonwing IQ9),Android 端需要 Snapdragon 8 Gen 4 芯片。

    如果你没有骁龙设备,纯 CPU/GPU 也能跑,只是没有 NPU 那么省电高效。

    五、适用场景

  • 移动端 AI 产品:把 LLM/VLM 塞进 Android App
  • 边缘计算:在 IoT 设备上跑 AI,不依赖云端
  • 本地隐私推理:数据不出设备
  • 开发者尝鲜:想试试最新模型但不想配环境的
  • 总结

  • 高通官方出品,NPU/GPU/CPU 全覆盖
  • 支持 Qwen3-VL、Gemma3n、DeepSeek-OCR 等前沿模型
  • CLI / Python / Android SDK 三件套
  • Day-0 模型支持,跟进速度行业领先
  • 8k Stars,ProductHunt 日榜第一
  • 如果你手上有骁龙设备,或者想在手机/平板上跑 AI 模型,NexaSDK 是目前最省事的方案。

    标签:#Qualcomm #NexaSDK #AI #NPU #Android #本地推理


    评论