🦅 Heretic：22k Stars 的大模型审查移除工具，让 AI 畅所欲言

title: "🦅 Heretic：22k Stars 的大模型审查移除工具，让 AI 畅所欲言"
slug: heretic-llm-censorship
category: category-ozfwcjgj
tags: [AI, LLM, Censorship, Python, Open-Source]
created: 2026-05-29
status: draft

这玩意儿是啥？

用过 ChatGPT、Claude 这些大模型的朋友都知道，问某些敏感话题时，模型会乖乖地说"抱歉我不能回答这个问题"。这个限制叫 safety alignment（安全对齐），说白了就是给模型戴了个紧箍咒。

Heretic 就是一把能摘掉这个紧箍咒的螺丝刀。它由开发者 p-e-w 打造，GitHub 上狂揽 22k+ Stars，社区用 Heretic 生成的去审查模型已经超过 3000 个。

一安装就上手

装起来贼简单，一行命令搞定：

pip install -U heretic-llm

然后指定你想去审查的模型就完事了：

heretic Qwen/Qwen3-4B-Instruct-2507

全程自动化，啥都不用配。RTX 3090 上跑一个 4B 模型大概 20-30 分钟，喝杯咖啡的功夫。

它是怎么做到的？

Heretic 的核心技术叫 abliteration（消融移除），来自一篇 2024 年的论文（Arditi et al.）。基本原理就是：找到模型内部那个负责说"不"的方向向量，然后把它从模型的计算路径里"投影掉"。

# 核心逻辑简化版：正交化权重矩阵，消去拒绝方向
refusal_direction = mean_harmful - mean_harmless
W_orthogonalized = W - (W @ refusal_direction) * refusal_direction

但 Heretic 比基础版牛逼的地方在于：

方向索引是浮点数 — 不是硬选某一层的方向，而是在两层之间线性插值，找到最优解
逐组件独立调参 — Attention 和 MLP 各用各的消融权重，MLP 下手轻一点
Optuna 自动优化 — TPE 算法同时最小化拒绝率和 KL 散度

用配置文件的姿势也很优雅：

# config.toml — 你可以微调这些参数
[direction]
index = "per_layer"  # 每层独立方向

[ablation.attention]
max_weight = 0.8
min_weight = 0.1

[ablation.mlp]
max_weight = 0.5
min_weight = 0.05

效果有多猛？

直接看数据。拿 Gemma-3-12B 来说：

模型	拒绝回答数（100个有害问题）	KL 散度（能力保留度）
原始 Gemma-3-12B	97/100	0（基准）
人工消融版 v2	3/100	1.04
Heretic 自动版	3/100	0.16

看出来了吗？拒绝率从 97% 降到 3%，KL 散度只有手工版的 1/6。社区在 MMLU 和 GSM8K 基准测试上验证过，Heretic 版模型的能力损失是最小的。

如果想自己验证一下，这行命令就能跑评测：

heretic --model google/gemma-3-12b-it \
  --evaluate-model p-e-w/gemma-3-12b-it-heretic

还能搞科研

Heretic 还有个科研模式，装上以后可以做模型内部的可视化分析：

pip install -U heretic-llm[research]
heretic Qwen/Qwen3-4B-Instruct-2507 --plot-residuals

这个功能会把模型每一层对"好问题"和"坏问题"的残差向量投影到 2D 空间，生成动画 GIF，让你直观看到模型内部是怎么"考虑"要不要拒绝的。

总结一下

Heretic 是目前最成熟的自动化大模型审查移除工具。不是简单的暴力破解，而是基于严谨的学术方法（abliteration + Optuna 优化），用数学手段去定向消除模型里的限制。22k Stars、3000+ 衍生模型、活跃的社区生态，说明这玩意儿确实解决了实际需求。

如果你在本地跑大模型，想让它回答问题更自由，Heretic 是首选，没有之一。整个工具全部用 Python 写成，MIT 协议（实际是 AGPL-3.0），全开源、可信赖。

不过提醒一句：去掉审查不等于可以违法乱用。技术工具是中性的，怎么用取决于人。

菜单

分享

🦅 Heretic：22k Stars 的大模型审查移除工具，让 AI 畅所欲言

这玩意儿是啥？

一安装就上手

它是怎么做到的？

效果有多猛？

还能搞科研

总结一下

评论

⭐ 1Panel：35,654 stars · 🔥 1Panel is a modern, open-source VPS control panel — and...

⭐ UI-TARS-desktop：35,659 stars · The Open-Source Multimodal AI Agent Stack: Connecting Cut...

⭐ AgentGPT：36,146 stars · 🤖 Assemble, configure, and deploy autonomous AI Agents in...

⭐ arthas：37,333 stars · Alibaba Java Diagnostic Tool Arthas/Alibaba Java诊断利器Arthas

⚡ Serena：24k Stars 的MCP编码工具包

🫴 OpenHands：73k Stars 的AI驱动开发平台

🛠 SWE-agent：19k Stars 的 AI 程序员，扔个 GitHub Issue 它自动帮你修好

📈 TradingAgents：72k Stars 的多智能体交易框架

🖥 Bytebot：11k Stars 的开源 AI 桌面代理，给大模型配台电脑，它替你干活

🦉 OWL：19.7k Stars 的多智能体协作框架，GAIA 开源第一，让你的 Agent 团队自己干活