🔥 NexaSDK:高通官方出品,手机上跑大模型,一行代码搞定
项目地址:qualcomm/nexa-sdk | ⭐ 8,000 Stars | 🛠 Go + Python + Kotlin | 作者:Qualcomm Nexa AI
老实说,手机跑大模型这个概念喊了好几年,但真正能做到"能用的"没几个。NexaSDK 是高通官方出的本地推理框架,让你在 Android、Windows、Linux 上用 NPU/GPU/CPU 跑前沿的多模态 AI 模型——而且只需要几行代码。
8k Stars、996 Forks、1,493 次提交,Qualcomm 官方博客连续推荐了 3 次。ProductHunt 日榜第一。不是玩具。
一、一句话概括
NexaSDK 是一个高性能的本地推理框架,特点是:
目前支持的模型包括 Qwen3-VL、DeepSeek-OCR、Gemma3n (Vision)、OmniNeural-4B、IBM Granite-4 等。
二、安装即用
CLI(最快上手)
# 下载对应平台的 CLI 工具
# Windows arm64(骁龙 NPU)、Windows x64、Linux arm64、Linux x64
# 跑 Qwen3 对话
nexa infer ggml-org/Qwen3-1.7B-GGUF
# 多模态:拖图片进终端
nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF
# NPU 加速(Windows arm64,骁龙 X Elite)
nexa infer NexaAI/OmniNeural-4B
Python SDK(适合开发者)
pip install nexaai
from nexaai import LLM
llm = LLM.from_(model="NexaAI/Qwen3-0.6B-GGUF")
prompt = llm.apply_chat_template([
{"role": "user", "content": "讲个冷笑话"}
])
for token in llm.generate_stream(prompt):
print(token, end="", flush=True)
Android SDK(移动端部署)
// build.gradle.kts
dependencies {
implementation("ai.nexa:core:0.0.19")
}
// 初始化 + 跑 VLM 模型
NexaSdk.getInstance().init(this)
VlmWrapper.builder()
.vlmCreateInput(VlmCreateInput(
model_name = "omni-neural",
model_path = "/data/data/your.app/files/models/...",
plugin_id = "npu"
))
.build()
.onSuccess { vlm ->
vlm.generateStreamFlow("Hello!", GenerationConfig()).collect {
print(it)
}
}
三、为什么值得关注?
说实话,市面上的本地推理框架不少(llama.cpp、MLC、MNN 等等),但 NexaSDK 有几个独特的优势:
1. 高通亲儿子
不是第三方适配,是高通官方团队在维护。对骁龙 NPU 的优化是原生的,不是"顺便支持"。
2. 新模型跟进速度第一梯队
Qualcomm 官方博客提到,他们在 Granite-4 发布当天就完成了 NPU 支持。这种 Day-0 支持力度,其他框架很难追。
3. 全栈覆盖
CLI 一把梭、Python 搞开发、Android SDK 做产品——不管你是想自己玩还是嵌入到 App 里,都有对应的 SDK。
四、NPU 加速怎么用?
需要设置一个 access token(免费,高通提供的开发者 token):
export NEXA_TOKEN="key/eyJhY2NvdW50I..."
目前 NPU 加速支持 Windows arm64(骁龙 X Elite)和 Docker(骁龙 Dragonwing IQ9),Android 端需要 Snapdragon 8 Gen 4 芯片。
如果你没有骁龙设备,纯 CPU/GPU 也能跑,只是没有 NPU 那么省电高效。
五、适用场景
总结
如果你手上有骁龙设备,或者想在手机/平板上跑 AI 模型,NexaSDK 是目前最省事的方案。
标签:#Qualcomm #NexaSDK #AI #NPU #Android #本地推理