🎬 Pixelle-Video:14.1k Stars 的全自动 AI 短视频引擎,输入主题就能生成一条完整视频
项目地址:AIDC-AI/Pixelle-Video | ⭐ 14,152 Stars | 🐍 Python | 📜 Apache-2.0 | 🏢 AIDC-AI
做短视频最烦什么?脚本要自己写、配图要一张张找、配音要自己录、剪辑要一帧帧调——一套流程下来半天没了。要是想批量做号,更是不可能手动搞。
Pixelle-Video 就是来解决这个问题的。它是个全自动 AI 短视频引擎:你只需要输入一个主题词,比如「为什么要养成阅读习惯」,剩下的事情——写文案、配图、配音、加 BGM、合成视频——全部自动完成。14.1k Stars、Apache-2.0 协议,Windows 整合包开箱即用,本地也能跑。
📊 项目数据
| 指标 | 数据 |
|------|------|
| ⭐ Stars | 14,152 |
| 🍴 Forks | — |
| 📝 语言 | Python |
| 📜 协议 | Apache-2.0 |
| 🏢 作者 | AIDC-AI |
| 📅 创建 | 2025-11-07 |
🎯 核心功能拆解
🤖 全自动流水线:主题 → 成品视频
整个流程是一条完整的 AI 流水线:文案生成 → 分镜规划 → 逐帧配图/视频 → TTS 配音 → BGM 叠加 → 视频合成。每个环节都独立可换,但默认跑完一条龙。输入「冬日养生小知识」,几分钟后你就得到一条带旁白、配图、字幕、BGM 的成品短视频。
🧠 多模型 LLM 文案引擎
支持 GPT-4o、通义千问、DeepSeek、Ollama(本地)等多种 LLM。选不同的模型,文案风格差很多——GPT 写得更自然,DeepSeek 逻辑更强,Ollama 完全免费。也支持固定文案输入,你写好稿子让 AI 只负责配图和配音。
🎨 ComfyUI 驱动的配图系统
图像生成基于 ComfyUI 架构,默认使用 Flux 模型。每句文案对应一个 AI 配图,支持本地 ComfyUI(自己部署)和云端 RunningHub 两种模式。也支持 WAN 2.1 生成动态视频素材、动作迁移、数字人口播。
🗣️ 多引擎 TTS 配音 + 声音克隆
内置 Edge-TTS(免费,音质不错)、Index-TTS(支持声音克隆)。上传一段 10 秒的参考音频,AI 就能用你的声音念稿。支持多语言——中文、英文、韩语等。
🎵 BGM + 多种视频模板
内置默认背景音乐,也支持自定义 MP3。模板方面:静态文字模板(无配图)、图片模板(AI 配图做背景)、视频模板(动态视频背景)。竖屏/横屏/方形全尺寸覆盖。懂 HTML 的还能自己写模板。
🔌 扩展模块:数字人 + 图生视频 + 动作迁移
除了基础短视频,Pixelle-Video 还集成了三个独立流水线:数字人口播(上传照片生成说话视频)、图生视频(单张图片变动态视频)、动作迁移(参考视频驱动目标图片动作)。
⚡ 实操步骤:从零生成第一条 AI 短视频
一、安装(Windows 用户直接下载整合包)
# 从源码安装(macOS / Linux)
# 先装 uv(Python 包管理器)和 ffmpeg
# macOS:
brew install ffmpeg
# Ubuntu/Debian:
sudo apt install ffmpeg
# 克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
# 启动 Web 界面(uv 自动装依赖)
uv run streamlit run web/app.py
Windows 用户直接下载 Windows 一键整合包,解压双击 start.bat 即可。
二、配置 LLM 和图像服务
浏览器打开 http://localhost:8501,展开「⚙️ 系统配置」面板:
1. LLM 配置:选模型预设(推荐通义千问,性价比高)
→ 填入 API Key → 自动填充 Base URL 和 Model
2. 图像配置:
→ 本地部署:填 ComfyUI URL(默认 http://127.0.0.1:8188)
→ 云端:填 RunningHub API Key
3. 点击「保存配置」
三、生成视频
1. 左侧栏「内容输入」→ 选「AI 生成内容」
2. 输入主题,比如:「为什么我们还没有找到外星文明?」
3. 中间栏选 TTS 引擎(Edge-TTS 免费无需配置)
4. 选视频模板(推荐竖屏图片模板)
5. 右侧栏点击「🎬 生成视频」
6. 等待进度条跑完 → 自动播放成品视频
生成的视频文件保存在 output/ 目录。一套配置可以重复使用,下次换个主题直接生成。
🧠 对比:Pixelle-Video vs MoneyPrinterTurbo
| 维度 | Pixelle-Video | MoneyPrinterTurbo |
|------|---------------|-------------------|
| ⭐ Stars | 14.1k | 约 20k |
| LLM 支持 | GPT / Qwen / DeepSeek / Ollama | 单一 LLM 支持 |
| 图像引擎 | ComfyUI(灵活可换工作流) | 固定 API |
| TTS 引擎 | Edge-TTS / Index-TTS + 声音克隆 | 基础 TTS |
| 模板系统 | 多模板 + 自定义 HTML | 固定模板 |
| 扩展模块 | 数字人 / 图生视频 / 动作迁移 | 无 |
| ComfyUI 集成 | ✅ 深度集成 | ❌ |
| 本地运行 | ✅ 全本地可跑 | ✅ |
两者定位相似,但 Pixelle-Video 在 ComfyUI 集成和模块扩展上走得更深——如果你已经搭了 ComfyUI,Pixelle-Video 几乎是零额外成本。
📌 要点总结
标签:#AI #Video #AIGC #TTS #ComfyUI #OpenSource