项目地址:AlexsJones/llmfit | ⭐ 26.3k Stars | 🛠 Rust | 作者:AlexsJones | 📜 MIT
老实说,每次买完新显卡或者想跑个本地模型,最头疼的就是——这玩意儿到底能不能跑? 装个 70B 的模型发现显存不够,下个 7B 的又觉得性能浪费。要么一个个试,要么翻半天 Reddit。
llmfit 就是来解决这个问题的。一个 Rust 写的命令行工具,自动检测你的硬件配置,然后告诉你几百个模型里哪个最适合你——一个命令,全部搞定。
它怎么知道你能跑什么?
llmfit 做的事其实不复杂,但做得很到位:
- 硬件检测 — 自动识别你的 GPU(NVIDIA/AMD/Apple Silicon/Intel Arc)、显存、内存、CPU 核心数
- 模型数据库 — 内置 206 个主流模型的数据,从 Llama、Qwen、DeepSeek 到 Phi、Gemma,应有尽有
- 动态量化选型 — 从 Q8_0(最高质量)试到 Q2_K(最省显存),挑一个你显卡能塞下的最高质量版本
- 四维评分 — 从质量、速度、适配度、上下文长度四个维度打分,综合排序
最骚的是,它连 MoE(Mixture-of-Experts)架构的模型也能正确处理。比如 Mixtral 8x7B 虽然总参数量 46.7B,但实际每 token 只激活 ~12.9B,需要的显存远低于你的直觉。
一条命令安装
# macOS / Linux(一行搞定)
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
# 或者用 Homebrew
brew install llmfit
# 或者用 pip
uv tool install -U llmfit
实战:看看你能跑啥
装好之后,直接运行:
# 启动 TUI 交互界面(默认)
llmfit
你会看到一个漂亮的终端界面,顶部显示你的硬件信息,中间是模型列表按综合评分排序。每个模型都标明了预估的 tok/s、推荐量化版本、运行模式和显存占用。
不想进 TUI?CLI 模式也一样好用:
# 只看完美适配的模型,前 5 个
llmfit fit --perfect -n 5
# 看硬件配置
llmfit system
# 搜索特定模型
llmfit search "qwen 7b"
# 输出 JSON 给脚本用
llmfit recommend --json --limit 5
# 按场景筛选
llmfit recommend --json --use-case coding --limit 3
进阶玩法
模拟不同硬件
想买新显卡但不确定该买哪张?先模拟一下:
# 模拟 24G 显存 + 64G 内存的机器
llmfit --memory=24G --ram=64G fit -n 20
社区排行榜
按 b 键打开社区排行榜,能看到其他用户在你同款硬件上的实测数据——真实 tok/s、TTFT、显存占用,不是纸上谈兵。
REST API
llmfit 还能当 API 跑,适合集群调度:
llmfit serve --host 0.0.0.0 --port 8787
curl http://localhost:8787/api/v1/models/top?limit=5&use_case=coding
总结
- 一句话: 一个命令就知道你的硬件能跑什么模型,不用再一个个试
- 核心优势: 内置 206 个模型数据 + 动态量化选型 + 社区实测数据对照
- 适用场景: 买显卡前模拟、本地模型选型、集群调度
- 安装方式:
curl一行 /brew/scoop/uv/ Docker 全支持 - 平台支持: Linux / macOS(Apple Silicon + Intel)/ Windows
别折腾了,先跑个 llmfit 看看你的机器到底能跑啥。