标签： LLM

FunASR：阿里达摩院出品的工业级语音识别工具包，18.6K+ Stars 让中文语音识别又快又准
ASR

FunASR：阿里达摩院出品的工业级端到端语音识别工具包

ModelScope（阿里达摩院）出品 · 18.6K+ Stars · 1.9K+ Forks · MIT 许可

FunASR 是阿里达摩院 ModelScope 团队开发的工业级端到端语音识别工具包，
支持 170 倍实时识别速度、50+ 语言、内置说话人日志与情感检测，并提供兼容 OpenAI 的 API 接口。
相比 Whisper，FunASR 在中文和方言识别上准确率更高，CPU 场景运行速度更快，是开源语音识别领域最实用的生产级工具包。

18.6K+

GitHub Stars

50+

支持语言

170x

实时识别速度

MIT

开源许可

⚙️ 安装要求和过程
环境要求

Python ≥ 3.8

需先安装 PyTorch 和 torchaudio

GPU 可选（CPU 场景亦可运行，SenseVoice 模型可达 17 倍实时）

可选：vLLM（加速推理）、Docker（容器部署）

快速安装

# 从 PyPI 安装（推荐） pip install funasr pip install funasr[cli] # 包含 CLI 命令行工具 # 从源码安装 git clone https://github.com/modelscope/FunASR.git cd FunASR pip install -e ./ # Docker 一键部署 API 服务 docker run -p 8000:8000 funasr/funasr-server:latest
🚀 核心功能

⚡

170倍实时识别速度

旗舰模型 Fun-ASR-Nano 配合 vLLM 加速可达 340 倍实时，比 Whisper 快 26 倍；CPU 场景下 SenseVoice 模型可达 17 倍实时

🌍

50+ 语言支持

Qwen3-ASR 支持 52 种语言，Fun-ASR-Nano 支持 31 种语言，覆盖全球主流语种，适合国际化应用

🎯

内置多任务能力

单模型调用即可完成 VAD 分段、语音识别、说话人分离、标点恢复、时间戳、情感/音频事件识别，无需额外模型

🔄

流式实时识别

支持音频流逐块输入，适合实时字幕、语音实时转写场景，支持逐字/逐句流式输出

🔌

OpenAI 兼容 API

提供兼容 OpenAI 语音识别 API 的接口，可对接 LangChain、Dify、AutoGen 等 AI 框架；提供 MCP Server 可接入 Claude Code、Cursor 等智能体

💡 典型使用场景
🎤 本地音频快速转录

无需 GPU 即可使用，单条命令完成音频转录，支持输出纯文本、JSON、SRT 字幕等格式

funasr audio.wav funasr audio.wav --output-format json funasr audio.wav --output-format srt --output-dir ./subs

👥 会议长音频处理

单模型调用同时完成 VAD 分段、语音识别、说话人分离，适合会议、访谈等长音频场景

from funasr import AutoModel model = AutoModel( model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda" ) result = model.generate( input="meeting_record.wav", batch_size_s=300, )

🚀 生产级 API 部署

一键启动兼容 OpenAI 的 API 服务，可对接现有基于 OpenAI API 的应用，无需修改代码

# 启动服务 funasr-server --device cuda # 调用（兼容 OpenAI API） curl http://localhost:8000/v1/audio/transcriptions \ -F file=@sample.wav -F model=sensevoice
🌟 推荐理由

FunASR 是开源语音识别领域最实用的工业级工具包。相比 Whisper，它在中文和方言识别上准确率更高，CPU 场景运行速度更快（17 倍实时），且内置了说话人分离、情感检测等额外能力，无需像 Whisper 那样集成多个模型。

最让我惊喜的是它的 OpenAI 兼容 API——只需改一行代码，就能把基于 Whisper 的应用无缝迁移到 FunASR，且中文识别准确率显著提升。此外，它还提供 MCP Server，可直接接入 Claude Code、Cursor 等 AI 编程助手，让语音识别能力融入 AI 工作流。

MIT 许可允许商用，且支持边缘设备无 Python 运行时部署（llama.cpp/GGUF），真正做到了全场景覆盖。如果你在做语音相关的 AI 应用，FunASR 是目前最好的开源选择。

📥 下载地址

GitHub 仓库
 官方文档
 PyPI 安装
 下载发布包

⭐ 如果你觉得这篇文章有用，欢迎在 GitHub 上给 FunASR 点个 Star！
2026年6月28日

OpenAI Agents SDK：OpenAI官方多智能体框架，27K+ Stars让Agentic AI开发变得简单

OpenAI Agents SDK 多智能体编排架构示意图（图片来源：OpenAI 官方文档）

项目简介

OpenAI Agents SDK 是 OpenAI 官方出品的轻量级、强大的多智能体工作流编排框架，2025年3月开源，至今已获得 27,470+ Stars 和 4,227 Forks。一句话概括：让你用极简的 Python 代码，构建生产级的多智能体 AI 应用。

与 LangChain、AutoGen 等第三方框架不同，Agents SDK 是 OpenAI 官方原生维护，与 OpenAI API 深度集成，同时支持 100+ 其他 LLM（通过 LiteLLM），真正做到了 provider-agnostic（提供商无关）。

🌟 核心定位：不是另一个 AI 框架，而是 OpenAI 对「如何构建 Agentic AI 应用」的官方最佳实践。如果你在用 GPT/Claude 构建智能体应用，这是目前最权威的参考实现。

安装要求和过程

环境要求

Python：3.10 及以上版本
依赖：Pydantic v2、httpx、mcp-python-sdk
API Key：OpenAI API Key（或兼容的其它 LLM）

快速安装

# 使用 pip（推荐）
pip install openai-agents

# 使用 uv（更快）
uv add openai-agents

# 语音功能支持（可选）
pip install 'openai-agents[voice]'

# Redis 会话支持（可选）
pip install 'openai-agents[redis]'

最小可运行示例

import os
from agents import Agent, Runner

# 设置 API Key（支持任何兼容 OpenAI API 的服务）
os.environ["OPENAI_API_KEY"] = "your-api-key"

agent = Agent(
    name="Assistant",
    instructions="你是一个有帮助的助手。",
)

result = Runner.run_sync(agent, "用一句话解释什么是 MCP？")
print(result.final_output)

核心功能

🤖 1. Agents — 智能体定义

通过声明式 API 定义智能体：配置指令（instructions）、工具（tools）、安全护栏（guardrails）和交接策略（handoffs）。每个 Agent 是一个独立的 LLM 调用上下文。

🔄 2. Handoffs — 智能体交接

一个智能体可以将对话「交接」给另一个智能体，实现专业分工。例如： triage Agent → 路由到 billing Agent / technical Agent，是构建多智能体系统的核心机制。

🛡️ 3. Guardrails — 输入/输出安全护栏

可配置的安全检查，在 Agent 执行前后验证输入和输出。支持自定义 guardrail 函数，实现内容审核、敏感信息过滤、输出格式校验等。

🔧 4. Tools + MCP — 工具与协议扩展

支持函数工具（function tools）、MCP 服务器工具、托管工具（web search / file search / computer use）。MCP 协议原生支持，可接入 1000+ 工具生态。

📊 5. Tracing — 内置可观测性

所有 Agent 运行自动记录追踪信息，可在 OpenAI Traces Dashboard 查看、调试和优化工作流。无需额外配置，开箱即用。

📦 6. Sandbox Agents — 容器化工作空间

v0.14.0 新增功能。Agent 可以在隔离的容器环境中执行真实工作（读写文件、运行命令、应用补丁），支持长时间跨会话的任务。可用于代码审查、自动修复等场景。

🎙️ 7. Realtime Agents — 语音智能体

基于 gpt-realtime-2 模型构建语音智能体，支持实时语音对话，完整集成 Agent 所有功能（工具调用、handoffs、guardrails）。可用于构建 AI 客服、语音助手等。

💬 8. Sessions — 会话历史管理

自动管理跨多次运行的对话历史，开发者无需手动维护上下文。支持 Redis 持久化，适合生产环境。

典型使用场景

场景一：客户服务多智能体系统

构建一个客服系统，用户消息首先进入 Triage Agent，根据问题类型自动交接给：

Billing Agent：处理账单、退款、付费问题
Technical Agent：处理技术故障、错误排查
Escalation Agent：复杂问题升级人工处理（Human-in-the-loop）

每个专业 Agent 有自己的指令、工具和知识库，Handoffs 实现无缝切换。Guardrails 确保用户输入和 Agent 输出符合安全规范。

场景二：AI 编程助手（代码审查+自动修复）

利用 Sandbox Agents 在隔离环境中运行 AI 编程助手：

Agent 克隆代码仓库到沙箱
阅读代码、分析 Issue
生成修复方案并执行测试
自动提交 PR

整个过程在沙箱中完成，不影响生产环境。支持跨长时间任务（分钟级到小时级）。

场景三：语音 AI 助手（Realtime Agent）

基于 Realtime Agents 构建语音助手：

用户通过语音提问
gpt-realtime-2 实时理解并响应
Agent 调用工具（查天气、搜信息、控制智能家居）
支持中断、插话、多轮对话

可用于 AI 客服热线、语音笔记助手、语言学习陪练等场景。

项目数据一览

指标	数据
GitHub Stars	27,470+ ⭐
Forks	4,227
主要功能	多智能体编排、Handoffs、Guardrails、Tracing、MCP、Sandbox Agents、Realtime
编程语言	Python（也支持 JS/TS）
开源许可	MIT License
维护方	OpenAI 官方
创建时间	2025年3月11日
最后更新	2026年6月27日（非常活跃 🔥）

下载地址

pip install openai-agents

📚

官方文档

完整 API 参考

🚀 OpenAI Agents SDK 让构建生产级多智能体应用变得简单而强大。如果你正在做 AI Agent 项目，这应该是你的首选框架。

2026年6月28日

cognee：为AI智能体打造的开源记忆平台，跨会话持久记忆+自托管知识图谱，23K+Stars让AI真正拥有长期记忆
🧠 项目简介

Cognee 是为 AI 智能体打造的开源记忆平台，通过自托管知识图谱引擎，为智能体提供跨会话的持久长期记忆。它支持任意格式的数据摄入，构建可动态演进的知识图谱，让智能体能够基于完整上下文进行回忆、关联和行动。结合向量嵌入、图推理和认知科学基础的本体生成能力，Cognee 让文档既支持语义搜索，又能通过关系关联，且知识图谱会随知识积累动态演进。

📦 安装要求和过程

环境要求
- Python：3.10 ~ 3.14
- 可选：Docker（用于本地 MCP 服务或完整部署）
- LLM API Key：默认支持 OpenAI，也可对接其他 LLM 提供商
快速安装
```
# 使用 uv 安装（推荐）
uv pip install cognee

# 使用 pip 安装
pip install cognee

# 如需使用 Postgres 作为后端，安装对应依赖
pip install "cognee[postgres]"
```
环境配置
```
# 复制环境变量模板
cp .env.template .env

# 配置 LLM API Key（默认 OpenAI）
echo 'LLM_API_KEY="your_openai_api_key"' > .env
```
Docker 一键部署
```
# 克隆仓库并配置
git clone https://github.com/topoteretes/cognee.git
cd cognee
cp .env.template .env

# 启动 API 服务（默认端口 8000）
docker compose up

# 同时启动前端（端口 3000）
docker compose --profile ui up

# 启动 MCP 服务（端口 8001）
docker compose --profile mcp up
```
⭐ 核心功能

1. 跨会话持久记忆

AI 智能体的记忆不会随会话结束而丢失。Cognee 提供两种存储模式：永久存储（直接写入知识图谱，执行完整处理流程）和会话存储（先写入快速缓存，后台异步同步到知识图谱）。

2. 自托管知识图谱引擎

知识关系可动态演进，随知识积累自动更新。Cognee 1.0 支持在单个 Postgres 实例上运行完整记忆层（关系存储 + 向量嵌入 + 会话缓存 + 元数据存储），无需维护多组件栈，性能比分离式图+向量方案快约 10%。

3. 多后端支持

默认使用 Postgres 全栈运行记忆层，也可按需切换 Neo4j、Neptune、Redis、Qdrant 等专用后端。灵活适配不同规模的部署需求。

4. 多语言官方客户端

除 Python 主客户端外，还提供 Rust（cognee-rs，可通过 cargo add cognee 安装）和 TypeScript（@cognee/cognee-ts，可通过 npm install 安装）官方客户端，覆盖更多开发场景。

5. 多智能体工具集成

支持 Claude Code、OpenClaw 等智能体工具集成，也支持对接 Cognee Cloud 托管服务。提供 MCP 服务器原生支持，可无缝接入 AI 编程助手。

🚀 典型使用场景
场景一：客服智能体

目标：结合用户的金融、客服、产品历史等个人数据，解决客户问题。

示例交互：
- 用户提问：”我的发票有问题，而且问题一直没解决”
- 智能体响应：”我找到 2 个上个月解决的类似账单问题，原因是支付和发票系统同步延迟，我们已经在你的账户上应用了修复方案。”
底层逻辑：统一整合企业多渠道数据源 → 重建交互时间线 → 检索相似已解决案例 → 匹配最优解决方案 → 执行后更新记忆。
场景二：专家知识蒸馏（SQL 助手）

目标：帮助初级分析师复用专家的查询、模式和推理逻辑，完成数据分析任务。

示例交互：
- 用户提问：”我该怎么为这个数据集计算客户留存率？”
- 智能体响应：”这是高级分析师解决类似留存查询的方法，Cognee 将你的数据表结构和已知结构做了匹配，把专家的逻辑适配到了你的数据集上。”
底层逻辑：提取并存储专家 SQL 查询 → 将当前数据表结构映射到已识别的结构 → 检索相似任务和成功实现方案 → 将专家推理逻辑适配到当前上下文。
💡 推荐理由
Cognee 解决了 AI 智能体领域一个根本性问题：如何让智能体拥有持久、可演进的记忆。在大模型应用从”单次对话”走向”长期协作”的今天，记忆层已成为 AI 智能体不可或缺的基础设施。

最打动我的几点：
- Single Postgres 架构：Cognee 1.0 的巧妙设计让整个记忆层运行在单个 Postgres 实例上，极大降低了运维复杂度，同时性能不输专用分离方案。
- 动态演进的知识图谱：不同于静态 RAG，Cognee 的知识图谱会随知识积累自动更新关系，真正实现”越用越聪明”。
- 基准测试领先：在长上下文记忆基准测试 BEAM 中，Cognee 得分 0.79（开启按问题路由后 >0.8），优于之前的 SOTA 方案（0.735）和 RAG 基线（~0.33）。
- 多语言客户端：同时提供 Python、Rust、TypeScript 官方客户端，覆盖从 AI 应用开发到高性能系统集成的全场景。
- 活跃社区：8426+ 次提交，304 个开放 Issues（说明使用人数多、反馈活跃），Apache-2.0 永久开源。
如果你正在构建需要”记住用户”的 AI 应用——无论是客服机器人、个人助手还是企业知识助手，Cognee 值得一试。23K+ Stars 和本周新增 5000+ Stars 的趋势，已经说明了开发者的认可。
📥 下载地址
- 🏠 项目官网：https://www.cognee.ai
- 📚 官方文档：https://docs.cognee.ai
- 🐙 GitHub 仓库：https://github.com/topoteretes/cognee（23,542+ Stars）
- 💬 Discord 社区：https://discord.gg/NQPKmU5CCg
- 🐍 PyPI 安装：pip install cognee
- 📦 Docker 镜像：docker pull cognee/cognee:main
📌 许可协议：Apache License 2.0（永久开源，可自由使用、修改和分发）

👥 维护团队：topotherete 社区（8426+ 次提交，活跃开发中）

📄 相关研究：Optimizing the Interface Between Knowledge Graphs and LLMs for Complex Reasoning（arXiv 2025）
2026年6月27日
Sentence Transformers：RAG与语义搜索的基石，18.8K+Stars让文本嵌入变得简单
📌 项目速览
项目名称: Sentence Transformers
GitHub: huggingface/sentence-transformers
⭐ Stars: 18.8K+ | 🍴 Forks: 2.8K+
编程语言: Python | 许可证: Apache-2.0
维护方: Hugging Face (原 UKP Lab)
官网: sbert.net

🎯 项目简介

Sentence Transformers 是计算文本嵌入（Embeddings）的事实标准框架，让语义搜索、RAG 检索和文本相似度计算变得极其简单。由德国达姆施塔特工业大学 UKP Lab 首创，现由 Hugging Face 团队维护，是每一个做 RAG、语义搜索、向量检索工程师的必备工具箱。

只需两行代码，就能把任意句子转换成高质量稠密向量；再配合一行相似度计算，即可实现语义级别的文本匹配。支持 100+ 语言、15000+ 预训练模型、多模态（文本/图像/音频/视频）嵌入，堪称 AI 时代的”文本向量化瑞士军刀”。

💡 为什么重要？ 大语言模型虽强，但无法直接处理超长文本或实时检索。Sentence Transformers 将文本转化为固定维度的向量，使语义搜索、去重、聚类、推荐等任务速度提升 100 倍，是 RAG 系统的第一块基石。

⚙️ 安装要求和过程

环境要求
- Python: 3.10+
- PyTorch: 1.11.0+
- transformers: 4.41.0+
- 硬件: CPU 可用，GPU（CUDA）可加速 10-50 倍
快速安装
```
# 基础安装（仅核心功能）
pip install -U sentence-transformers

# 带扩展功能（图像/音频/视频/训练/ONNX）
pip install sentence-transformers[image,audio,video,train,onnx]

# 使用 uv 快速安装
uv pip install sentence-transformers

# Conda 安装
conda install -c conda-forge sentence-transformers
```
验证安装:
```
python -c "from sentence_transformers import SentenceTransformer; print('✅ 安装成功')"
```
🌟 核心功能

1. 稠密嵌入（Dense Embeddings）—— RAG 的核心

将句子、段落甚至整篇文档转换为固定维度的稠密向量（通常 384-1024 维），使得语义相似的文本在向量空间中距离更近。支持 Matryoshka 嵌入（可变尺寸，大向量拆小不降性能）和 嵌入量化压缩（降低 4-8 倍存储）。

2. 交叉编码器重排序（Cross-Encoder Reranking）—— 精准召回

稠密检索快速召回 Top-100 后，用 Cross-Encoder 对查询-文档对进行精细打分，重排序后 Top-5 准确率可提升 15-30%。这是生产级 RAG 系统的标配二阶段检索策略。

3. 稀疏嵌入（Sparse Embeddings）—— 关键词 + 语义混合

基于 SPLADE 等模型生成稀疏向量（维度 = 词表大小，但 99.8% 以上元素为 0），兼具 BM25 的关键词匹配能力和稠密向量的语义理解能力，实现真正的 混合检索。

4. 多模态嵌入 —— 图文音视统一向量空间

通过统一 API 支持文本、图像、音频、视频四种模态的嵌入模型。例如用 AI-ModelScope/CLIP-ViT-bigG-patch14 可实现图文跨模态检索，用 laion/clap-htsat-unfused 实现音频语义搜索。

5. 模型训练/微调 —— 适配你的业务场景

提供 20+ 种嵌入模型损失函数（余弦相似度、三元组、对比学习等）、10+ 种重排序损失函数、10+ 种稀疏编码损失函数。支持多语言、多任务联合训练，仅需几十对标注样本即可微调出业务级模型。

🚀 典型使用场景

场景一：RAG 知识库检索（最流行）

企业文档问答系统的标准做法：用 Sentence Transformers 将知识库切片编码为向量存入向量数据库（Chroma/Milvus/Qdrant），用户提问时实时编码查询向量，召回最相关的 Top-K 文档片段送给 LLM 生成答案。
```
from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient

# 1. 加载嵌入模型
model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# 2. 编码知识库文档
docs = ["公司报销流程...", "年假申请方法...", "IT设备申领..."]
doc_embeddings = model.encode(docs)

# 3. 存入向量数据库
client = QdrantClient(":memory:")
client.add(collection_name="kb", vectors=doc_embeddings, payload=docs)

# 4. 用户提问检索
query = "怎么申请年假？"
query_vec = model.encode(query)
results = client.search(collection_name="kb", query_vector=query_vec, limit=3)
print(results[0].payload)  # 返回最相关文档
```
场景二：语义搜索与去重（电商平台/内容平台）

电商平台的商品搜索（用户输入”红色运动鞋”能匹配”红跑步鞋”）、新闻推荐系统去重、简历与岗位描述的语义匹配，都依赖 Sentence Transformers 的语义编码能力。

场景三：跨语言语义匹配（全球化应用）

支持 100+ 语言的预训练多语言模型（如 paraphrase-multilingual-MiniLM-L12-v2），可将中文、英文、日文等不同语言的相同语义映射到向量空间的相近位置，实现跨语言检索和匹配。

💡 推荐理由

1. RAG 工程师的”Hello World”

几乎所有 RAG 教程的第一个代码示例都是 Sentence Transformers。它把复杂的 Transformer 编码、池化、归一化等步骤封装成一行 model.encode()，让开发者专注业务逻辑而非模型细节。langchain、LlamaIndex 等框架的底层检索默认就用它。

2. Hugging Face 生态深度整合

作为 Hugging Face 官方库，可直接 model = SentenceTransformer("your-model-name") 加载 Hub 上任意模型，也轻松将本地模型 push_to_hub() 分享给社区。15000+ 预训练模型即搜即用，覆盖从轻量级的 MiniLM（80MB）到旗舰级的 gte-Qwen3（数 GB）。

3. 性能与精度的完美平衡

all-MiniLM-L6-v2（仅 80MB）在 MTEB 排行榜上达到中上水平，推理速度却是最强模型的 10 倍。配合 Matryoshka 训练，768 维向量可截断为 384/256/128 维使用，存储和检索速度提升数倍，精度损失极小。

4. 生产级可靠性

2019 年开源至今，历经 6 年迭代，2800+ Fork、1300+ 贡献者，PyPI 月下载量超百万。Apache-2.0 许可完全免费商用，被 Google、Microsoft、Amazon、Meta 等大厂的内部系统广泛采用。

🎯 适用人群: RAG 开发者、搜索工程师、NLP 算法工程师、推荐系统工程师、AI 全栈工程师。如果你正在构建任何需要”理解文本语义”的系统，Sentence Transformers 都是首选工具。

📥 下载地址
- 📦 PyPI 安装: pip install sentence-transformers
- 🌐 GitHub 仓库: github.com/huggingface/sentence-transformers
- 📚 官方文档: sbert.net
- 🤗 Hugging Face 模型库: huggingface.co/models (筛选 sentence-similarity)
- 📊 MTEB 排行榜: huggingface.co/spaces/mteb/leaderboard
- 💬 GitHub Discussions: github.com/huggingface/sentence-transformers/discussions
本文由 AI 自动整理，数据截至 2026 年 6 月。项目持续更新中，建议访问官方仓库获取最新信息。
2026年6月27日
MoneyPrinterTurbo：AI 自动生成短视频，93K+ Stars 让创作零门槛
🎬 MoneyPrinterTurbo：AI 自动生成短视频，93K+ Stars 让创作零门槛

基于 AI 大模型的短视频自动生成工具｜支持中英文｜一键跨平台发布

93.1K+

⭐ GitHub Stars

Python

💻 主要语言

MIT

📄 开源许可

35K+

📈 本月新增

📌 项目简介

MoneyPrinterTurbo 是一款基于 AI 大模型的短视频自动生成工具，由开发者 harry0703 创建并维护。只需提供一个视频主题或关键词，系统即可全自动完成文案生成、素材匹配、字幕合成、背景音乐搭配，最终输出高清短视频（支持竖屏 9:16 和横屏 16:9）。

项目在 GitHub 上已获得 93,118 Stars，是本月 GitHub 趋势榜 Python 类目第二名（新增 35,397 Stars），深受内容创作者和 AI 爱好者欢迎。

🔧 安装要求和过程

环境要求
- Python 版本：3.11+（推荐，项目使用 uv 管理依赖）
- 核心依赖：Streamlit（Web界面）、FastAPI（API服务）、MoviePy 2.x（视频处理）、ffmpeg
- AI 服务：需配置至少一家 LLM 提供商 API Key（支持 15+ 家）
- 素材服务：需配置 Pexels 或 Pixabay API Key（免费申请）
快速安装（三种方式）

方式一：Docker 部署（推荐）

# 1. 安装 Docker Desktop（Windows 用户需先配置 WSL）
# 2. 克隆项目
git clone https://github.com/harry0703/MoneyPrinterTurbo.git
cd MoneyPrinterTurbo

# 3. 一键启动（自动拉取预构建镜像）
docker compose -f docker-compose.release.yml up

# 4. 访问
# Web 界面：http://127.0.0.1:8501
# API 文档：http://127.0.0.1:8080/docs

方式二：本地手动部署

# 1. 克隆项目
git clone https://github.com/harry0703/MoneyPrinterTurbo.git
cd MoneyPrinterTurbo

# 2. 使用 uv 安装依赖（推荐）
uv python install 3.11
uv sync –frozen

# 3. 配置 API Key
cp config.example.toml config.toml
# 编辑 config.toml，填入 pexels_api_keys 和 llm_provider 配置

# 4. 启动 Web 界面
uv run streamlit run ./webui/Main.py –server.showEmailPrompt=False

# 5. 启动 API 服务（可选）
uv run python main.py

方式三：Windows 一键启动包

从 GitHub Release 下载最新一键启动包，解压后先双击 update.bat 更新代码，再双击 start.bat 启动即可。

✨ 核心功能
- AI 全自动文案生成：接入 15+ 家 LLM 服务商（OpenAI / DeepSeek / Kimi / 通义千问 / Gemini / Ollama 等），自动生成视频脚本，支持中英文双语。
- 智能素材匹配：集成 Pexels、Pixabay、Coverr 三大无版权素材源，根据文案关键词自动匹配高清视频片段，也支持上传本地素材。
- 多语音合成引擎：内置 Edge TTS（免费，无需 API Key）、Azure TTS V2、ElevenLabs TTS，支持 23+ 种语言，可实时试听效果。
- 丰富字幕样式：支持自定义字体、位置、颜色、大小、描边效果，基于 Pillow 渲染（不再依赖 ImageMagick），字幕时间戳精确对齐。
- 一键跨平台发布：生成完成后可自动上传至 TikTok、Instagram、YouTube Shorts（需 Upload-Post 账号），YouTube 发布自动标注”AI 生成内容”。
🚀 典型使用场景

场景一：知识科普短视频批量生产

自媒体运营者需要每天发布 3-5 条科普短视频，但缺乏视频剪辑时间和素材。使用 MoneyPrinterTurbo，只需输入”量子计算入门””黑洞是什么”等主题，AI 自动生成文案并匹配宇宙、科技素材，10 分钟内完成 5 条视频生成，大幅降低内容生产成本。

场景二：跨境电商产品宣传视频

电商卖家需要为每款产品制作多语言宣传短视频。通过自定义文案 + 本地素材上传功能，批量生成中英双语产品介绍视频，配合一键跨平台发布功能，快速覆盖 TikTok、Instagram 等海外社媒渠道。

场景三：本地 LLM 隐私保护场景

对数据隐私有严格要求的企业用户，可配置 Ollama 本地 LLM 提供商，所有文案生成均在本地完成，无需将敏感信息发送至第三方 API，兼顾 AI 能力提升与数据安全合规。

💡 推荐理由

作为一个 AI 工具爱好者，我认为 MoneyPrinterTurbo 最打动人的地方在于它的「降维打击式」易用性：
- 零视频编辑基础也能用：传统视频制作需要掌握剪辑软件、素材版权、配音等多项技能，而 MoneyPrinterTurbo 把这些全部封装成一个 Web 界面，点几下鼠标就能出片。
- AI 大模型生态友好：支持 Ollama 本地模型是一大亮点，意味着你可以在没有 API 费用的情况下无限生成文案，对个人创作者非常友好。
- 开源且活跃：MIT 许可允许自由修改和商用，社区活跃（本月新增 35K+ Stars），Bug 修复和功能迭代速度快。
- 不只是「玩具」：内置的批量生成、API 接口、跨平台发布等功能，已经让它具备了生产级工具的属性，而不只是一个 Demo。
⚠️ 使用提醒：AI 生成的视频内容请注意平台审核规则，YouTube 已要求标注”AI 生成内容”。另外，虽然素材来自无版权平台，但商业使用前建议再次确认素材许可协议。

🛠️ 技术栈

Python 3.11
Streamlit
FastAPI
MoviePy 2.x
ffmpeg
Edge TTS
Docker
uv

🤖 支持的 AI 模型

MoneyPrinterTurbo 支持接入以下大模型服务（在 config.toml 中配置）：

# LLM 提供商列表（任选其一配置 API Key）
OpenAI / AIHubMix / AIML API / EvoLink
Moonshot（Kimi）/ Azure / gpt4free / one-api
通义千问（Qwen）/ Google Gemini / DeepSeek
MiniMax / 文心一言 / Pollinations / ModelScope
Ollama（本地模型，无需 API Key）💡 推荐个人用户使用

📥 下载地址

📦 GitHub 仓库
 🚀 Release 下载
 🎬 使用演示视频

📌 开源许可：MIT License，可自由使用、修改和分发，包括商业用途。
🌟 项目热度：93,118 Stars | 本月新增 35,397 Stars | GitHub Python 趋势榜 Top 2
💬 社区：Issues 和 PR 活跃，开发者响应及时。
2026年6月27日

FastAPI：构建AI服务API的现代化Python框架，80K+ Stars让API开发快如闪电

FastAPI — 构建API的现代化Python框架

📌 项目简介

FastAPI 是基于 Python 3.8+ 类型提示构建的高性能 Web 框架，专为构建 API 设计。它结合了 Starlette（Web部分）和 Pydantic（数据验证部分）的优点，让开发者能够用最少的代码快速构建生产级 API 服务。FastAPI 已成为 AI/ML 服务部署的标配框架，被 Netflix、Uber、Microsoft 等公司广泛使用。

80K+

GitHub Stars

8.5K+

Forks

4.6K+

贡献者

MIT

开源许可

⚙️ 安装要求和过程

环境要求

Python：3.8+ （推荐 3.10+ 获得最佳性能）
操作系统：Windows / macOS / Linux 全平台支持
依赖项：Starlette（Web框架）、Pydantic v2（数据验证）、Uvicorn（ASGI服务器）

快速安装

# 安装 FastAPI 和 Uvicorn（ASGI 服务器）
pip install fastapi uvicorn

# 如果需要所有可选依赖（包括 JSON Schema 生成、OAuth2 等）
pip install fastapi[all]

# 创建第一个 API
# main.py
from fastapi import FastAPI

app = FastAPI()

@app.get("/")
async def root():
    return {"message": "Hello World"}

# 启动服务
# uvicorn main:app --reload

依赖说明

依赖	用途
Starlette	Web 框架核心，处理请求路由、中间件、WebSocket等
Pydantic v2	数据验证和序列化，基于 Python 类型提示
Uvicorn	高性能 ASGI 服务器，用于运行 FastAPI 应用
httpx	异步 HTTP 客户端，用于测试

🚀 核心功能

1. 基于类型提示的自动数据验证

利用 Python 3.8+ 的类型提示（Type Hints）和 Pydantic，FastAPI 自动对请求参数、请求体进行数据验证，无需手动编写验证逻辑。如果验证失败，自动返回清晰的错误信息。

from fastapi import FastAPI
from pydantic import BaseModel

class Item(BaseModel):
    name: str
    price: float
    is_offer: bool = False

app = FastAPI()

@app.post("/items/")
async def create_item(item: Item):
    return {"item_name": item.name, "price": item.price}

2. 自动生成 API 文档（OpenAPI & JSON Schema）

FastAPI 基于 OpenAPI 标准自动生成交互式 API 文档，无需额外配置。启动服务后访问 /docs 即可看到基于 Swagger UI 的交互式文档，访问 /redoc 可看到 ReDoc 文档。

💡 自动文档：定义好 Pydantic 模型后，FastAPI 会自动生成符合 OpenAPI 规范的 JSON Schema，并渲染为可交互的文档界面，大大降低了前后端协作成本。

3. 异步支持（async/await）

基于 Python 的 async/await 语法，FastAPI 原生支持异步请求处理，能够充分利用现代 Python 的异步能力，处理高并发请求时性能卓越。与 Node.js 和 Go 相当的性能表现。

4. 依赖注入系统

FastAPI 提供了强大而直观的依赖注入（Dependency Injection）系统，可以轻松实现认证、数据库连接、权限校验等横切关注点，代码复用率高且易于测试。

from fastapi import Depends, HTTPException

async def verify_token(token: str):
    if token != "secret":
        raise HTTPException(status_code=401)
    return token

@app.get("/protected")
async def protected_route(token: str = Depends(verify_token)):
    return {"message": "Authenticated!"}

5. 安全性内置支持

FastAPI 内置了 HTTP 基础认证、OAuth2、JWT、API Key 等多种认证方式，并提供了完整的安全工具函数，帮助开发者轻松构建安全的 API 服务。

💡 典型使用场景

场景一：AI/ML 模型服务化部署

FastAPI 是 AI/ML 模型服务化部署的首选框架。结合 PyTorch/TensorFlow/ONNX Runtime，可以快速将训练好的模型封装为 HTTP API，供其他服务调用。

from fastapi import FastAPI
import torch
from transformers import pipeline

app = FastAPI()
model = pipeline("sentiment-analysis")

@app.post("/predict")
async def predict(text: str):
    result = model(text)[0]
    return {"label": result["label"], "score": result["score"]}

案例：Hugging Face 的 Inference API、Modal、Replicate 等 AI 推理平台都使用 FastAPI 作为底层 API 框架。

场景二：微服务架构中的 API 网关

FastAPI 的高性能和异步特性使其非常适合作为微服务架构中的 API 网关或边缘服务，负责请求路由、认证、限流、日志等横切关注点。

案例：Netflix 使用 FastAPI 构建部分数据管道的 API 服务；Microsoft 在 Azure 的一些内部服务中使用 FastAPI。

场景三：实时 WebSocket 应用

FastAPI 基于 Starlette，原生支持 WebSocket，适合构建实时通信应用，如在线聊天、实时数据推送、协同编辑等。

from fastapi import FastAPI, WebSocket

app = FastAPI()

@app.websocket("/ws")
async def websocket_endpoint(websocket: WebSocket):
    await websocket.accept()
    while True:
        data = await websocket.receive_text()
        await websocket.send_text(f"Message: {data}")

🌟 推荐理由

FastAPI 是我个人最喜爱的 Python Web 框架，没有之一。以下是我的使用心得：

开发效率极高：类型提示 + 自动验证 + 自动文档，让我能够专注于业务逻辑，而不是花时间写样板代码和文档。
学习曲线平缓：如果你熟悉 Python 类型提示，只需一个下午就能上手 FastAPI。官方文档非常详细，包含大量示例代码。
性能卓越：基于 Starlette 和 Pydantic，FastAPI 的性能可以媲美 Go 和 Node.js，在 Python Web 框架中属于第一梯队。
AI/ML 生态友好：FastAPI 是 AI/ML 社区的首选 API 框架，与 PyTorch、TensorFlow、Hugging Face Transformers 等库无缝集成。
生产就绪：内置数据验证、序列化、认证、文档等生产级特性，不需要依赖大量第三方库。

💡 个人建议：如果你正在构建 AI 服务的 API 接口，FastAPI 是不二之选。它不仅能提升你的开发效率，还能确保服务的性能和可维护性。我几乎所有 AI 相关的后端项目都使用 FastAPI。

📊 技术对比：FastAPI vs Flask vs Django

特性	FastAPI	Flask	Django
性能	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
异步支持	原生支持	需第三方库	部分支持
数据验证	自动（Pydantic）	需手动/Marshmallow	Forms/Serializers
API 文档	自动生成	需第三方库	DRF 支持
学习曲线	平缓	最平缓	陡峭
适用场景	API 服务、AI/ML	小型应用、原型	全栈 Web 应用

📥 下载地址

⭐

GitHub 仓库

github.com/fastapi/fastapi

快速开始

# 安装 FastAPI 和 Uvicorn
pip install fastapi uvicorn

# 创建 main.py
from fastapi import FastAPI

app = FastAPI()

@app.get("/")
async def root():
    return {"message": "Hello FastAPI"}

# 启动开发服务器
uvicorn main:app --reload

# 浏览器访问 http://localhost:8000/docs

🚀 同类推荐

如果你喜欢 FastAPI，还可以关注：

Starlette：FastAPI 的底层 Web 框架，如果你需要更底层的控制
Pydantic：FastAPI 使用的数据验证库，也可独立使用
Uvicorn：FastAPI 推荐的 ASGI 服务器
Flask：轻量级 Web 框架，适合小型项目
Django REST Framework：如果你需要全栈 Web 框架 + API

📌 本文定期更新，最后更新：2026年6月 | 项目GitHub：fastapi/fastapi

2026年6月26日

Haystack：构建生产级 LLM 应用的首选 AI 编排框架，25K+ Stars 让 RAG 和 Agent 工作流完全透明可控
Haystack 是由 deepset 团队（已被 Cohere 收购）开发的开源 AI 编排框架，专为构建生产级 LLM 应用而设计。它让开发者以显式控制的方式设计模块化 Pipeline 和 Agent 工作流，覆盖 RAG、多模态、语义搜索、问答系统和自主智能体等场景。

📦 安装要求和过程
环境要求

Python >= 3.9（推荐 3.10+）

pip 包管理器

可选：Docker（用于容器化部署）

可选：GPU（用于本地模型推理加速）

快速安装

# 安装稳定版

pip install haystack-ai

# 安装 nightly 预览版（尝鲜最新功能）

pip install –pre haystack-ai

# 验证安装

python -c “import haystack; print(haystack.__version__)”

💡 可选依赖：pip install haystack-ai[openai,anthropic,mistral] 可一次性安装主流模型提供商支持。
🚀 核心功能

🧠

上下文工程优先

显式控制信息检索、排序、过滤、组合、结构化和路由的全流程。Pipeline 和 Agent 工作流完全透明、可追踪。

🔄

模型与厂商无关

集成 OpenAI、Mistral、Anthropic、Cohere、HuggingFace、Azure、AWS Bedrock、本地模型等。切换模型或基础设施无需重写系统。

🧩

模块化与可定制

内置检索、索引、工具调用、记忆、评估等组件，也可自定义。支持循环、分支和条件逻辑，精确控制上下文流转。

🌐

可扩展生态系统

通过统一接口构建和共享自定义组件，社区和第三方可轻松扩展 Haystack。支持 Hayhooks 将 Pipeline 包装为 REST API 或 MCP 服务器。

💡 典型使用场景

1

企业级 RAG 知识库系统

某德国联邦部委使用 Haystack 构建了面向公众的语义搜索系统，支持多语言文档检索和精准问答。通过 Haystack 的混合检索（稠密+稀疏向量）和重排序功能，实现了比传统关键词搜索高出 3 倍的准确率。系统部署在私有云上，数据完全合规。

2

多模态 AI 客服助手

某欧洲航空公司使用 Haystack 构建了支持文本+图片输入的客服 Agent，客户可以上传行李损坏照片，Agent 自动检索相关政策文档并生成处理建议。Haystack 的多模态 Pipeline 设计让文本和视觉信息在统一框架下协同工作，大幅缩短了投诉处理周期。

🌟 推荐理由

💬 笔者心得

在尝试了 LangChain、LlamaIndex 等多个 LLM 应用框架后，Haystack 给我留下的印象是「透明」和「可控」。与 LangChain 的「黑盒」链式调用不同，Haystack 的 Pipeline 是显式定义的——每个组件的输入输出、数据流向都一目了然，调试起来非常直观。

特别值得一提的是 Haystack 对上下文工程（Context Engineering）的重视。在 RAG 系统中，如何精准控制检索策略、如何组合多路召回结果、如何设计记忆机制，这些才是决定效果的关键。Haystack 把这些控制权交给了开发者，而不是封装成不可见的「魔法」。

另外，Haystack 的企业级基因也很突出——它诞生于 deepset 的商业化实践，从第一天就考虑了生产部署、可观测性、访问控制等现实需求。现在 deepset 被 Cohere 收购，Haystack 企业版（Haystack Enterprise Platform）更是提供了托管化生产 setup，对的企业用户来说是很好的选择。

📥 下载地址

🌐 官方网站

haystack.deepset.ai

🐙 GitHub 仓库

github.com/deepset-ai/haystack

25,730+ Stars · 2,884+ Forks

📚 官方文档

docs.haystack.deepset.ai

💬 Discord 社区

discord.gg/qZxjM4bAHU

🐍 PyPI 安装

pip install haystack-ai

🍳 Cookbook 食谱

haystack.deepset.ai/cookbook

📊 项目速览

⭐ Stars：25,730+

🍴 Forks：2,884+

📅 创建时间：2019-11

🔄 最近更新：2026-06-26

📝 开源许可：Apache-2.0

💻 主要语言：Python

🏢 维护团队：deepset（Cohere 旗下）

🌟 用户案例：Apple、Meta、NVIDIA、Netflix、Airbus 等
2026年6月26日

Voicebox：开源AI语音工作室，本地替代ElevenLabs+WisprFlow，34K+Stars让AI开口说话

34K+

GitHub Stars

7种

TTS 引擎

支持语言

500+
开发者

关注者

MIT

开源许可

📌 项目简介

Voicebox 是一个开源的 AI 语音工作室，由独立开发者 jamiepine 打造，旨在提供完全本地运行的 AI 语音解决方案。它将”语音生成（替代 ElevenLabs）”和”语音输入（替代 WisprFlow）”二合一，所有模型和数据完全在本地运行，无需上传云端，是隐私优先的 AI 语音工具首选。

项目基于 Tauri (Rust) 桌面端 + React/TypeScript 前端 + FastAPI Python 后端架构，支持 macOS、Windows 和 Docker 部署，内置 7 种 TTS 引擎、Whisper STT、本地 Qwen3 LLM，并原生支持 MCP 协议，让 AI 智能体也能”开口说话”。

⚙️ 安装要求和过程

环境要求

macOS：Apple Silicon (M1+) 或 Intel Mac，推荐 16GB 内存
Windows：Windows 10+，支持 CUDA GPU 加速（NVIDIA）或 DirectML（任意 GPU）
Linux：从源码构建，支持 CUDA/ROCm GPU 加速
通用：Python 3.11+，Rust（开发构建），Bun (JS 运行时)

快速安装（预编译包）

# macOS (Apple Silicon)
curl -L https://voicebox.sh/download/mac-arm -o Voicebox.dmg

# macOS (Intel)
curl -L https://voicebox.sh/download/mac-intel -o Voicebox.dmg

# Windows
# 下载 MSI：https://voicebox.sh/download/windows

# Docker 一键启动
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
docker compose up

从源码开发构建

# 克隆仓库
git clone https://github.com/jamiepine/voicebox.git
cd voicebox

# 安装 just 命令工具（任务运行器）
brew install just # macOS
# 或 cargo install just

# 一键安装依赖并启动开发服务器
just setup
just dev

# 构建生产版本
just build # CPU 版本
just build-local # Windows + CUDA 版本

🌟 核心功能

🎤 7 种 TTS 引擎，覆盖全场景

Voicebox 集成了 7 种开源 TTS 引擎，从超轻量的 Kokoro (82M) 到高质量的 HumeAI TADA (3B)，满足不同场景需求：

引擎	语言数	模型大小	核心优势
Qwen3-TTS	10	0.6B/1.7B	高质量多语言克隆，支持发音指令
Chatterbox Multilingual	23	~1GB	语言覆盖最广，支持阿拉伯语/芬兰语等
Chatterbox Turbo	英语	350M	超快速度，支持 [laugh]/[sigh] 表情标签
Kokoro	8	82M	极小模型，CPU 实时 10x+ 速度
LuxTTS	英语	~1GB	48kHz 输出，CPU 150x 实时速度
HumeAI TADA	10	1B/3B	语音语言模型，支持 700s+ 连贯音频
Qwen CustomVoice	10	–	自然语言控制发音，无需参考音频

🗣️ 语音克隆 + 无限长度生成

支持从几秒音频进行零样本语音克隆，同时内置 Kokoro 和 Qwen CustomVoice 的 50+ 精选预设语音。独创”无限长度生成”机制——自动按句子拆分文本，分块生成后交叉淡入淡出拼接，最大支持 50,000 字符的文本输入，彻底打破 TTS 长度限制。

🎧 全局语音输入（Dictation）

支持全局热键语音输入，macOS 支持自动粘贴到当前文本框（按住说话/切换模式）。内置 Whisper STT，支持可选 LLM 优化去除口癖、停顿，让语音输入更流畅自然。相当于开源版的 WisprFlow！

🤖 AI 智能体语音输出（MCP 支持）

内置本地 MCP 服务器，支持 Claude Code、Cursor、Cline 等 AI 编程助手通过 voicebox.speak 工具调用，让 AI 智能体用克隆的语音”开口说话”。支持为不同智能体绑定不同语音，实现个性化语音输出。

# Claude Code 一键配置 MCP

claude mcp add voicebox   –transport http   –url http://127.0.0.1:17493/mcp   –header “X-Voicebox-Client-Id: claude-code”

🎬 语音故事编辑器 + 音频后处理

内置多轨道时间线编辑器，支持对话、播客、叙事内容制作，支持拖拽、音频裁剪、同步播放。基于 Spotify pedalboard 库提供 8 种音频后处理效果（音调偏移、混响、延迟、合唱、压缩等），并内置”机器人”、”电台”、”回声室”、”低音”4 种预设效果链。

💡 典型使用场景

场景一：AI 编程助手语音通知

长时间运行的编程任务（如模型训练、测试套件）完成后，通过 Voicebox MCP 集成，让 Claude Code 或 Cursor 用你喜欢的语音播报结果：”测试全部通过，共 42 个用例，耗时 3 分 12 秒”。不用盯着屏幕，声音告诉你进度！

场景二：多语言内容创作

使用 Chatterbox Multilingual 引擎（支持 23 种语言），配合语音克隆功能，内容创作者可以用自己（或任何）的声音生成多语言版本的视频配音、播客内容。Qwen3-TTS 还支持输入发音指令（如”慢点说”、”小声说”），让生成语音更自然。

场景三：本地隐私优先的语音输入替代

替代 WisprFlow 等云端语音输入工具，所有语音识别和转录均在本地运行（Whisper STT），语音数据不上传任何云端服务器。对隐私敏感的用户、企业内网环境，或者需要离线使用的场景，Voicebox 是最佳选择。

💬 推荐理由

📥 下载地址

🌐 官方网站
🐙 GitHub 仓库
📖 官方文档
🍎 macOS 下载
🪟 Windows 下载

项目信息：
⭐ GitHub Stars: 34,192
📜 开源许可: MIT License
💻 技术栈: Tauri (Rust) + React/TypeScript + FastAPI (Python)
🌐 官网: voicebox.sh
📦 Docker: docker compose up
最近更新: 2026 年 6 月

2026年6月26日

OpenMontage：全球首个开源 AI 智能体视频制作系统，21.2K+ Stars 让 AI 编程助手变身视频工作室
🎬

OpenMontage：全球首个开源 AI 智能体视频制作系统

21.2K+ Stars | AGPL-3.0 | Python/TypeScript | calesthio 出品

查看 GitHub →

OpenMontage 是全球首个开源的智能体驱动（agentic）视频生产系统，包含 12 条生产管线、52 个生产工具、500+ 智能体技能。将你的 AI 编码助手（Claude Code/Cursor/GitHub Copilot 等）转化为完整的视频制作工作室，支持从创意到成片的端到端全流程自动化生产。

21.2K+

GitHub Stars

12

生产管线

52

生产工具

500+

智能体技能

⚙️
安装要求和过程
环境要求

Python 3.10+

FFmpeg（视频编码、字幕烧录、音频混合）

Node.js 18+（Remotion 合成引擎）

任意支持的 AI 编码助手（Claude Code/Cursor/GitHub Copilot 等）

快速安装

# 一键安装（推荐）

git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup

# 无 make 手动安装

pip install -r requirements.txt
cd remotion-composer && npm install && cd ..
pip install piper-tts
cp .env.example .env

本地 GPU 支持（免费视频生成）

make install-gpu
# 然后在 .env 中配置：
VIDEO_GEN_LOCAL_ENABLED=true
VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b # 可选 wan2.1-14b、hunyuan-1.5 等
⭐
核心功能

🎬

12 条全流程生产管线

覆盖动画讲解、动画制作、虚拟人播报、电影感剪辑、短视频批量生成、纪录片蒙太奇、混合制作、本地化配音、播客剪辑、屏幕演示、口播视频等场景。每条管线遵循「研究 → 提案 → 脚本 → 分镜 → 资产 → 剪辑 → 合成」的标准化流程。

🎨

双渲染引擎支持

Proposal 阶段锁定渲染运行时，可选 Remotion（React 组件化合成，适合数据驱动讲解）或 HyperFrames（HTML/CSS/GASP 合成，适合动态图形和 SVG 角色动画）。禁止运行时静默切换，确保生产一致性。

💰

零成本/本地免费生产路径

无需 API 密钥即可使用 Piper TTS 离线配音、Archive.org/NASA/Pixabay 等免费素材库、Remotion/HyperFrames 合成、FFmpeg 后期处理。还支持本地 GPU 运行 WAN 2.1、Hunyuan 等免费视频生成模型。

🎯

7 维评分自动选品

所有工具选择通过「任务匹配度 30%、输出质量 20%、可控性 15%、可靠性 15%、成本效率 10%、延迟 5%、连续性 5%」的打分机制自动选择最优供应商，所有决策可追溯。

✅

生产级质量门禁

包含合成前校验（阻断交付承诺不符、幻灯片风险过高的问题）、渲染后自检（ffprobe 验证、抽帧检查、音频分析、字幕校验）、决策审计日志（所有创意/技术选择留痕可查），避免输出无效内容。

🚀
典型使用场景

📚

教育内容创作

输入「做一个 60 秒的动画讲解，主题是为什么天空是蓝色的」，AI 自动完成脚本编写、分镜设计、配音合成、字幕添加，全程无需手工操作。支持零密钥本地免费生成。

🎬

参考视频驱动创作

粘贴 YouTube/Reels/TikTok 链接，智能体自动分析参考视频的节奏、结构、风格，输出 2-3 个差异化创意方案（含成本预估和效果预览），避免从零开始构思。

📰

纪录片/蒙太奇制作

「做一个 90 秒的纪录片蒙太奇，主题是凌晨 4 点的城市氛围，仅使用实拍素材，无旁白，elegiac 基调。」支持 Archive.org 等免费素材库自动检索和剪辑。

🎨

风格化动画生成

「做一个 30 秒的吉卜力风格动画，内容是云端的魔法浮动图书馆，黄金时段场景。」配置图像/视频 API 后，成本约 $0.15-$1.50 即可生成风格化动画。

💡
推荐理由

💡

OpenMontage 是我近期看到的最有想象力的 AI + 创意工具结合项目之一。它不只是「AI 生成视频」的工具，而是一个完整的视频生产管线系统——把 AI 编程助手变成了导演、编剧、分镜师、剪辑师、配音演员的集合体。

最打动我的是它的「零成本路径」设计：你可以完全不花一分钱（无需任何 API Key）就生成完整的视频——使用 Piper 离线 TTS 配音、免费素材库、本地 FFmpeg 处理。对于个人创作者和学习者，这是极大的降低门槛。

另外，它的7 维评分自动选品机制和生产级质量门禁，让我看到了这个项目是「真正可用于生产」的，而不仅仅是 Demo 级别的玩具。所有决策留痕可查，合成前/后双重校验，这些设计在开源项目中非常少见。

「如果你已经在使用 Claude Code 或 Cursor，OpenMontage 能让你用同样的工作流（写提示词 → 看结果 → 迭代）来「编程」视频，而不是去学习 PRo/Afer Effects。」

🔧
支持的 AI 工具与服务商

兼容的 AI 编码助手：Claude Code、Cursor、GitHub Copilot、Windsurf、Codex（后续支持 Ollama、LM Studio 本地大模型）

视频生成：Kling、Runway Gen-4、Google Veo 3、Grok Imagine Video、Higgsfield、MiniMax、HeyGen、WAN 2.1、Hunyuan、CogVideo、LTX-Video、Pexels、Pixabay、Wikimedia Commons

图像生成：FLUX、Google Imagen 4、Grok Imagine Image、DALL-E 3、Recraft、Local Diffusion、Pexels、Pixabay、Unsplash、ManimCE

文本转语音：ElevenLabs、Google TTS（700+ 音色）、OpenAI TTS、Piper（免费离线）

音乐/音效：Suno AI、ElevenLabs Music、ElevenLabs SFX

📥
下载地址

🐙

GitHub 仓库

calesthio/OpenMontage

📖

官方文档

README + 使用指南



🎬

演示视频

YouTube @OpenMontage

💬

社区支持

GitHub Issues + Discussions

授权协议：AGPL-3.0（免费开源）

开发语言：Python, TypeScript, Rust

出品团队：calesthio（YC S26 孵化项目）
2026年6月25日
Weaviate：AI 开发者最爱的开源向量数据库，语义搜索与 RAG 的首选数据底座
📦 项目简介

Weaviate 是一款开源、云原生的向量数据库，同时存储对象和向量，支持大规模语义搜索。它将向量相似度搜索、关键词过滤、检索增强生成（RAG）和重排序功能整合到单个查询接口中，是构建 AI 应用的理想数据底座。

⚙️ 安装要求和过程

环境要求
- Docker 20.10+（推荐方式）
- 内存：最低 4GB RAM，生产环境建议 8GB+
- 客户端：Python 3.8+、Node.js 16+、Java 11+、Go 1.18+
快速安装（Docker 本地部署）

第一步：创建 docker-compose.yml：
```
services:
  weaviate:
    image: cr.weaviate.io/semitechnologies/weaviate:1.36.0
    ports:
      - "8080:8080"
      - "50051:50051"
    environment:
      ENABLE_MODULES: text2vec-model2vec
      MODEL2VEC_INFERENCE_API: http://text2vec-model2vec:8080
  text2vec-model2vec:
    image: cr.weaviate.io/semitechnologies/model2vec-inference:minishlab-potion-base-32M
```
第二步：启动 & 安装客户端
```
docker compose up -d
pip install -U weaviate-client
```
也可使用 Weaviate Cloud 免费试用，或部署到 Kubernetes/AWS/GCP。

🚀 核心功能

⚡ 毫秒级十亿向量搜索

基于 Go 构建，HNSW 索引，十亿级向量语义搜索毫秒返回。

🔀 混合检索（向量+关键词+过滤）

单接口同时支持语义搜索、BM25 关键词搜索、图像搜索，内置 hybrid 查询自动融合分数。

🤖 内置 RAG & 重排序

无需额外工具，直接支持生成式搜索（RAG）和重排序，快速构建 Q&A、聊天机器人。

📈 生产级可扩展性

支持水平扩展、多租户隔离、副本、RBAC 权限控制，Kubernetes 原生编排。

💾 向量压缩 & TTL

内置标量/二进制/产品量化，大幅降低内存占用；支持对象 TTL 自动清理过期数据。

💡 典型使用场景

场景一：RAG 检索增强生成系统

将企业文档导入 Weaviate，结合 LLM 构建精准问答系统，大幅降低幻觉率。
```
import weaviate
from weaviate.classes.query import Filter

client = weaviate.connect_to_local()
results = client.collections.get("Document").query.near_text(
    query="如何申请退款？", limit=5,
    filters=Filter.by_property("category").equal("help")
)
for obj in results.objects:
    print(obj.properties["content"])
```
场景二：语义搜索 & 推荐引擎

电商/内容平台实现”理解意图”的搜索，支持多模态（文本+图像）检索。

📌 推荐理由
- 生态最完整：Python/JS/Java/Go/C# 五大官方 SDK
- AI Agent 集成：官方提供 Agent Skills，支持 Claude Code/Cursor
- 商业友好：BSD-3-Clause 许可，可自由修改和分发
- 云原生架构：存储计算分离，Kubernetes 原生，水平扩展无忧
📥 下载地址 & 相关链接
- 🌐 项目官网
- 🐙 GitHub 仓库（16.4K+ Stars）
- 📚 官方文档
- 🐳 Docker：cr.weaviate.io/semitechnologies/weaviate:latest
- ☁️ Weaviate Cloud（免费试用）
✝️ BSD 3-Clause License | Go | 2016年发布
2026年6月25日

标签： LLM

FunASR：阿里达摩院出品的工业级端到端语音识别工具包

⚙️ 安装要求和过程

环境要求

快速安装

🚀 核心功能

170倍实时识别速度

50+ 语言支持

内置多任务能力

流式实时识别

OpenAI 兼容 API

💡 典型使用场景

🎤 本地音频快速转录

👥 会议长音频处理

🚀 生产级 API 部署

🌟 推荐理由

📥 下载地址

项目简介

安装要求和过程

环境要求

快速安装

最小可运行示例

核心功能

🤖 1. Agents — 智能体定义

🔄 2. Handoffs — 智能体交接

🛡️ 3. Guardrails — 输入/输出安全护栏

🔧 4. Tools + MCP — 工具与协议扩展

📊 5. Tracing — 内置可观测性

📦 6. Sandbox Agents — 容器化工作空间

🎙️ 7. Realtime Agents — 语音智能体

💬 8. Sessions — 会话历史管理

典型使用场景

场景一：客户服务多智能体系统

场景二：AI 编程助手（代码审查+自动修复）

场景三：语音 AI 助手（Realtime Agent）

推荐理由

项目数据一览

下载地址

🧠 项目简介

📦 安装要求和过程

环境要求

快速安装

环境配置

Docker 一键部署

⭐ 核心功能

1. 跨会话持久记忆

2. 自托管知识图谱引擎

3. 多后端支持

4. 多语言官方客户端

5. 多智能体工具集成

🚀 典型使用场景

场景一：客服智能体

场景二：专家知识蒸馏（SQL 助手）

💡 推荐理由

📥 下载地址

🎯 项目简介

⚙️ 安装要求和过程

环境要求

快速安装

🌟 核心功能

1. 稠密嵌入（Dense Embeddings）—— RAG 的核心

2. 交叉编码器重排序（Cross-Encoder Reranking）—— 精准召回

3. 稀疏嵌入（Sparse Embeddings）—— 关键词 + 语义混合

4. 多模态嵌入 —— 图文音视统一向量空间

5. 模型训练/微调 —— 适配你的业务场景

🚀 典型使用场景

场景一：RAG 知识库检索（最流行）

场景二：语义搜索与去重（电商平台/内容平台）

场景三：跨语言语义匹配（全球化应用）

💡 推荐理由

📥 下载地址

🎬 MoneyPrinterTurbo：AI 自动生成短视频，93K+ Stars 让创作零门槛

📌 项目简介

🔧 安装要求和过程

环境要求

快速安装（三种方式）

✨ 核心功能

🚀 典型使用场景

场景一：知识科普短视频批量生产

场景二：跨境电商产品宣传视频

⚙️
安装要求和过程