标签: LLM

  • FunASR:阿里达摩院出品的工业级语音识别工具包,18.6K+ Stars 让中文语音识别又快又准

    FunASR:阿里达摩院出品的工业级语音识别工具包,18.6K+ Stars 让中文语音识别又快又准

    ASR

    FunASR:阿里达摩院出品的工业级端到端语音识别工具包

    ModelScope(阿里达摩院) 出品 · 18.6K+ Stars · 1.9K+ Forks · MIT 许可

    FunASR 是阿里达摩院 ModelScope 团队开发的工业级端到端语音识别工具包
    支持 170 倍实时识别速度、50+ 语言、内置说话人日志与情感检测,并提供兼容 OpenAI 的 API 接口。
    相比 Whisper,FunASR 在中文和方言识别上准确率更高,CPU 场景运行速度更快,是开源语音识别领域最实用的生产级工具包。

    18.6K+
    GitHub Stars

    50+
    支持语言

    170x
    实时识别速度

    MIT
    开源许可

    ⚙️ 安装要求和过程

    环境要求

    • Python ≥ 3.8
    • 需先安装 PyTorch 和 torchaudio
    • GPU 可选(CPU 场景亦可运行,SenseVoice 模型可达 17 倍实时)
    • 可选:vLLM(加速推理)、Docker(容器部署)

    快速安装

    # 从 PyPI 安装(推荐)
    pip install funasr
    pip install funasr[cli]      # 包含 CLI 命令行工具
    
    # 从源码安装
    git clone https://github.com/modelscope/FunASR.git
    cd FunASR
    pip install -e ./
    
    # Docker 一键部署 API 服务
    docker run -p 8000:8000 funasr/funasr-server:latest

    🚀 核心功能

    170倍实时识别速度

    旗舰模型 Fun-ASR-Nano 配合 vLLM 加速可达 340 倍实时,比 Whisper 快 26 倍;CPU 场景下 SenseVoice 模型可达 17 倍实时

    🌍

    50+ 语言支持

    Qwen3-ASR 支持 52 种语言,Fun-ASR-Nano 支持 31 种语言,覆盖全球主流语种,适合国际化应用

    🎯

    内置多任务能力

    单模型调用即可完成 VAD 分段、语音识别、说话人分离、标点恢复、时间戳、情感/音频事件识别,无需额外模型

    🔄

    流式实时识别

    支持音频流逐块输入,适合实时字幕、语音实时转写场景,支持逐字/逐句流式输出

    🔌

    OpenAI 兼容 API

    提供兼容 OpenAI 语音识别 API 的接口,可对接 LangChain、Dify、AutoGen 等 AI 框架;提供 MCP Server 可接入 Claude Code、Cursor 等智能体

    💡 典型使用场景

    🎤 本地音频快速转录

    无需 GPU 即可使用,单条命令完成音频转录,支持输出纯文本、JSON、SRT 字幕等格式

    funasr audio.wav
    funasr audio.wav --output-format json
    funasr audio.wav --output-format srt --output-dir ./subs

    👥 会议长音频处理

    单模型调用同时完成 VAD 分段、语音识别、说话人分离,适合会议、访谈等长音频场景

    from funasr import AutoModel
    
    model = AutoModel(
        model="iic/SenseVoiceSmall",
        vad_model="fsmn-vad",
        spk_model="cam++",
        device="cuda"
    )
    result = model.generate(
        input="meeting_record.wav",
        batch_size_s=300,
    )

    🚀 生产级 API 部署

    一键启动兼容 OpenAI 的 API 服务,可对接现有基于 OpenAI API 的应用,无需修改代码

    # 启动服务
    funasr-server --device cuda
    
    # 调用(兼容 OpenAI API)
    curl http://localhost:8000/v1/audio/transcriptions \
      -F file=@sample.wav -F model=sensevoice

    🌟 推荐理由

    FunASR 是开源语音识别领域最实用的工业级工具包。相比 Whisper,它在中文和方言识别上准确率更高,CPU 场景运行速度更快(17 倍实时),且内置了说话人分离、情感检测等额外能力,无需像 Whisper 那样集成多个模型。

    最让我惊喜的是它的 OpenAI 兼容 API——只需改一行代码,就能把基于 Whisper 的应用无缝迁移到 FunASR,且中文识别准确率显著提升。此外,它还提供 MCP Server,可直接接入 Claude Code、Cursor 等 AI 编程助手,让语音识别能力融入 AI 工作流。

    MIT 许可允许商用,且支持边缘设备无 Python 运行时部署(llama.cpp/GGUF),真正做到了全场景覆盖。如果你在做语音相关的 AI 应用,FunASR 是目前最好的开源选择。

    📥 下载地址

    ⭐ 如果你觉得这篇文章有用,欢迎在 GitHub 上给 FunASR 点个 Star!
  • OpenAI Agents SDK:OpenAI官方多智能体框架,27K+ Stars让Agentic AI开发变得简单

    OpenAI Agents SDK:OpenAI官方多智能体框架,27K+ Stars让Agentic AI开发变得简单

    OpenAI Agents SDK 架构图

    OpenAI Agents SDK 多智能体编排架构示意图(图片来源:OpenAI 官方文档)

    项目简介

    OpenAI Agents SDK 是 OpenAI 官方出品的轻量级、强大的多智能体工作流编排框架,2025年3月开源,至今已获得 27,470+ Stars 和 4,227 Forks。一句话概括:让你用极简的 Python 代码,构建生产级的多智能体 AI 应用

    与 LangChain、AutoGen 等第三方框架不同,Agents SDK 是 OpenAI 官方原生维护,与 OpenAI API 深度集成,同时支持 100+ 其他 LLM(通过 LiteLLM),真正做到了 provider-agnostic(提供商无关)。

    🌟 核心定位:不是另一个 AI 框架,而是 OpenAI 对「如何构建 Agentic AI 应用」的官方最佳实践。如果你在用 GPT/Claude 构建智能体应用,这是目前最权威的参考实现。

    安装要求和过程

    环境要求

    • Python:3.10 及以上版本
    • 依赖:Pydantic v2、httpx、mcp-python-sdk
    • API Key:OpenAI API Key(或兼容的其它 LLM)

    快速安装

    # 使用 pip(推荐)
    pip install openai-agents
    
    # 使用 uv(更快)
    uv add openai-agents
    
    # 语音功能支持(可选)
    pip install 'openai-agents[voice]'
    
    # Redis 会话支持(可选)
    pip install 'openai-agents[redis]'
    

    最小可运行示例

    import os
    from agents import Agent, Runner
    
    # 设置 API Key(支持任何兼容 OpenAI API 的服务)
    os.environ["OPENAI_API_KEY"] = "your-api-key"
    
    agent = Agent(
        name="Assistant",
        instructions="你是一个有帮助的助手。",
    )
    
    result = Runner.run_sync(agent, "用一句话解释什么是 MCP?")
    print(result.final_output)
    

    核心功能

    🤖 1. Agents — 智能体定义

    通过声明式 API 定义智能体:配置指令(instructions)、工具(tools)、安全护栏(guardrails)和交接策略(handoffs)。每个 Agent 是一个独立的 LLM 调用上下文。

    🔄 2. Handoffs — 智能体交接

    一个智能体可以将对话「交接」给另一个智能体,实现专业分工。例如: triage Agent → 路由到 billing Agent / technical Agent,是构建多智能体系统的核心机制。

    🛡️ 3. Guardrails — 输入/输出安全护栏

    可配置的安全检查,在 Agent 执行前后验证输入和输出。支持自定义 guardrail 函数,实现内容审核、敏感信息过滤、输出格式校验等。

    🔧 4. Tools + MCP — 工具与协议扩展

    支持函数工具(function tools)、MCP 服务器工具、托管工具(web search / file search / computer use)。MCP 协议原生支持,可接入 1000+ 工具生态。

    📊 5. Tracing — 内置可观测性

    所有 Agent 运行自动记录追踪信息,可在 OpenAI Traces Dashboard 查看、调试和优化工作流。无需额外配置,开箱即用。

    📦 6. Sandbox Agents — 容器化工作空间

    v0.14.0 新增功能。Agent 可以在隔离的容器环境中执行真实工作(读写文件、运行命令、应用补丁),支持长时间跨会话的任务。可用于代码审查、自动修复等场景。

    🎙️ 7. Realtime Agents — 语音智能体

    基于 gpt-realtime-2 模型构建语音智能体,支持实时语音对话,完整集成 Agent 所有功能(工具调用、handoffs、guardrails)。可用于构建 AI 客服、语音助手等。

    💬 8. Sessions — 会话历史管理

    自动管理跨多次运行的对话历史,开发者无需手动维护上下文。支持 Redis 持久化,适合生产环境。

    典型使用场景

    场景一:客户服务多智能体系统

    构建一个客服系统,用户消息首先进入 Triage Agent,根据问题类型自动交接给:

    • Billing Agent:处理账单、退款、付费问题
    • Technical Agent:处理技术故障、错误排查
    • Escalation Agent:复杂问题升级人工处理(Human-in-the-loop)

    每个专业 Agent 有自己的指令、工具和知识库,Handoffs 实现无缝切换。Guardrails 确保用户输入和 Agent 输出符合安全规范。

    场景二:AI 编程助手(代码审查+自动修复)

    利用 Sandbox Agents 在隔离环境中运行 AI 编程助手:

    • Agent 克隆代码仓库到沙箱
    • 阅读代码、分析 Issue
    • 生成修复方案并执行测试
    • 自动提交 PR

    整个过程在沙箱中完成,不影响生产环境。支持跨长时间任务(分钟级到小时级)。

    场景三:语音 AI 助手(Realtime Agent)

    基于 Realtime Agents 构建语音助手:

    • 用户通过语音提问
    • gpt-realtime-2 实时理解并响应
    • Agent 调用工具(查天气、搜信息、控制智能家居)
    • 支持中断、插话、多轮对话

    可用于 AI 客服热线、语音笔记助手、语言学习陪练等场景。

    推荐理由

    作为一个深度使用过 LangChain、AutoGen、CrewAI 等框架的开发者,OpenAI Agents SDK 是目前我最推荐的入门和生产级多智能体框架,原因如下:

    1. 官方背书,长期维护有保障:由 OpenAI 官方团队维护,与 OpenAI API 深度集成,未来能力(如 Realtime API、Computer Use)会第一时间支持。不用担心框架突然停更。
    2. 设计极简,学习曲线平缓:核心概念只有 Agents / Handoffs / Tools / Guardrails / Tracing 五个,API 设计直观。相比 LangChain 的复杂抽象,Agents SDK 让你专注于业务逻辑。
    3. Provider-agnostic,不绑定 OpenAI:虽然由 OpenAI 维护,但通过 LiteLLM 支持 100+ LLM(Anthropic / Gemini / DeepSeek / 本地 Ollama 等)。你可以在开发时用 GPT-4o,生产时切换到更便宜的模型。
    4. 内置 Tracing,调试不再抓瞎:所有 Agent 运行自动记录到 OpenAI Platform,可以查看每次 LLM 调用、工具执行、handoff 传递的完整链路。这是其他框架需要自己搭建的可观测性系统。
    5. 生产级特性齐全:Guardrails(安全护栏)、Human-in-the-loop(人工介入)、Sessions(会话管理)、沙箱隔离,这些都是生产环境必需但很多框架忽视的特性。

    ⚠️ 注意事项:Agents SDK 是 Python-first 框架,如果你需要 JS/TS 版本,可以查看 openai-agents-js。另外,Tracing 功能默认将数据传输到 OpenAI Platform,如数据隐私有要求,可以配置自定义 tracing processor。

    项目数据一览

    指标 数据
    GitHub Stars 27,470+ ⭐
    Forks 4,227
    主要功能 多智能体编排、Handoffs、Guardrails、Tracing、MCP、Sandbox Agents、Realtime
    编程语言 Python(也支持 JS/TS)
    开源许可 MIT License
    维护方 OpenAI 官方
    创建时间 2025年3月11日
    最后更新 2026年6月27日(非常活跃 🔥)

    下载地址

    🚀 OpenAI Agents SDK 让构建生产级多智能体应用变得简单而强大。如果你正在做 AI Agent 项目,这应该是你的首选框架。

  • cognee:为AI智能体打造的开源记忆平台,跨会话持久记忆+自托管知识图谱,23K+Stars让AI真正拥有长期记忆

    cognee:为AI智能体打造的开源记忆平台,跨会话持久记忆+自托管知识图谱,23K+Stars让AI真正拥有长期记忆

    🧠 项目简介

    Cognee 是为 AI 智能体打造的开源记忆平台,通过自托管知识图谱引擎,为智能体提供跨会话的持久长期记忆。它支持任意格式的数据摄入,构建可动态演进的知识图谱,让智能体能够基于完整上下文进行回忆、关联和行动。结合向量嵌入、图推理和认知科学基础的本体生成能力,Cognee 让文档既支持语义搜索,又能通过关系关联,且知识图谱会随知识积累动态演进。


    📦 安装要求和过程

    环境要求

    • Python:3.10 ~ 3.14
    • 可选:Docker(用于本地 MCP 服务或完整部署)
    • LLM API Key:默认支持 OpenAI,也可对接其他 LLM 提供商

    快速安装

    # 使用 uv 安装(推荐)
    uv pip install cognee
    
    # 使用 pip 安装
    pip install cognee
    
    # 如需使用 Postgres 作为后端,安装对应依赖
    pip install "cognee[postgres]"
    

    环境配置

    # 复制环境变量模板
    cp .env.template .env
    
    # 配置 LLM API Key(默认 OpenAI)
    echo 'LLM_API_KEY="your_openai_api_key"' > .env
    

    Docker 一键部署

    # 克隆仓库并配置
    git clone https://github.com/topoteretes/cognee.git
    cd cognee
    cp .env.template .env
    
    # 启动 API 服务(默认端口 8000)
    docker compose up
    
    # 同时启动前端(端口 3000)
    docker compose --profile ui up
    
    # 启动 MCP 服务(端口 8001)
    docker compose --profile mcp up
    

    ⭐ 核心功能

    1. 跨会话持久记忆

    AI 智能体的记忆不会随会话结束而丢失。Cognee 提供两种存储模式:永久存储(直接写入知识图谱,执行完整处理流程)和会话存储(先写入快速缓存,后台异步同步到知识图谱)。

    2. 自托管知识图谱引擎

    知识关系可动态演进,随知识积累自动更新。Cognee 1.0 支持在单个 Postgres 实例上运行完整记忆层(关系存储 + 向量嵌入 + 会话缓存 + 元数据存储),无需维护多组件栈,性能比分离式图+向量方案快约 10%。

    3. 多后端支持

    默认使用 Postgres 全栈运行记忆层,也可按需切换 Neo4j、Neptune、Redis、Qdrant 等专用后端。灵活适配不同规模的部署需求。

    4. 多语言官方客户端

    除 Python 主客户端外,还提供 Rust(cognee-rs,可通过 cargo add cognee 安装)和 TypeScript(@cognee/cognee-ts,可通过 npm install 安装)官方客户端,覆盖更多开发场景。

    5. 多智能体工具集成

    支持 Claude Code、OpenClaw 等智能体工具集成,也支持对接 Cognee Cloud 托管服务。提供 MCP 服务器原生支持,可无缝接入 AI 编程助手。


    🚀 典型使用场景

    场景一:客服智能体

    目标:结合用户的金融、客服、产品历史等个人数据,解决客户问题。

    示例交互

    • 用户提问:”我的发票有问题,而且问题一直没解决”
    • 智能体响应:”我找到 2 个上个月解决的类似账单问题,原因是支付和发票系统同步延迟,我们已经在你的账户上应用了修复方案。”

    底层逻辑:统一整合企业多渠道数据源 → 重建交互时间线 → 检索相似已解决案例 → 匹配最优解决方案 → 执行后更新记忆。

    场景二:专家知识蒸馏(SQL 助手)

    目标:帮助初级分析师复用专家的查询、模式和推理逻辑,完成数据分析任务。

    示例交互

    • 用户提问:”我该怎么为这个数据集计算客户留存率?”
    • 智能体响应:”这是高级分析师解决类似留存查询的方法,Cognee 将你的数据表结构和已知结构做了匹配,把专家的逻辑适配到了你的数据集上。”

    底层逻辑:提取并存储专家 SQL 查询 → 将当前数据表结构映射到已识别的结构 → 检索相似任务和成功实现方案 → 将专家推理逻辑适配到当前上下文。


    💡 推荐理由

    Cognee 解决了 AI 智能体领域一个根本性问题:如何让智能体拥有持久、可演进的记忆。在大模型应用从”单次对话”走向”长期协作”的今天,记忆层已成为 AI 智能体不可或缺的基础设施。

    最打动我的几点

    • Single Postgres 架构:Cognee 1.0 的巧妙设计让整个记忆层运行在单个 Postgres 实例上,极大降低了运维复杂度,同时性能不输专用分离方案。
    • 动态演进的知识图谱:不同于静态 RAG,Cognee 的知识图谱会随知识积累自动更新关系,真正实现”越用越聪明”。
    • 基准测试领先:在长上下文记忆基准测试 BEAM 中,Cognee 得分 0.79(开启按问题路由后 >0.8),优于之前的 SOTA 方案(0.735)和 RAG 基线(~0.33)。
    • 多语言客户端:同时提供 Python、Rust、TypeScript 官方客户端,覆盖从 AI 应用开发到高性能系统集成的全场景。
    • 活跃社区:8426+ 次提交,304 个开放 Issues(说明使用人数多、反馈活跃),Apache-2.0 永久开源。

    如果你正在构建需要”记住用户”的 AI 应用——无论是客服机器人、个人助手还是企业知识助手,Cognee 值得一试。23K+ Stars 和本周新增 5000+ Stars 的趋势,已经说明了开发者的认可。


    📥 下载地址


    📌 许可协议:Apache License 2.0(永久开源,可自由使用、修改和分发)

    👥 维护团队:topotherete 社区(8426+ 次提交,活跃开发中)

    📄 相关研究Optimizing the Interface Between Knowledge Graphs and LLMs for Complex Reasoning(arXiv 2025)

  • Sentence Transformers:RAG与语义搜索的基石,18.8K+Stars让文本嵌入变得简单

    Sentence Transformers:RAG与语义搜索的基石,18.8K+Stars让文本嵌入变得简单

    📌 项目速览
    项目名称: Sentence Transformers
    GitHub: huggingface/sentence-transformers
    ⭐ Stars: 18.8K+ | 🍴 Forks: 2.8K+
    编程语言: Python | 许可证: Apache-2.0
    维护方: Hugging Face (原 UKP Lab)
    官网: sbert.net

    🎯 项目简介

    Sentence Transformers 是计算文本嵌入(Embeddings)的事实标准框架,让语义搜索、RAG 检索和文本相似度计算变得极其简单。由德国达姆施塔特工业大学 UKP Lab 首创,现由 Hugging Face 团队维护,是每一个做 RAG、语义搜索、向量检索工程师的必备工具箱。

    只需两行代码,就能把任意句子转换成高质量稠密向量;再配合一行相似度计算,即可实现语义级别的文本匹配。支持 100+ 语言、15000+ 预训练模型、多模态(文本/图像/音频/视频)嵌入,堪称 AI 时代的”文本向量化瑞士军刀”。

    💡 为什么重要? 大语言模型虽强,但无法直接处理超长文本或实时检索。Sentence Transformers 将文本转化为固定维度的向量,使语义搜索、去重、聚类、推荐等任务速度提升 100 倍,是 RAG 系统的第一块基石。

    ⚙️ 安装要求和过程

    环境要求

    • Python: 3.10+
    • PyTorch: 1.11.0+
    • transformers: 4.41.0+
    • 硬件: CPU 可用,GPU(CUDA)可加速 10-50 倍

    快速安装

    # 基础安装(仅核心功能)
    pip install -U sentence-transformers
    
    # 带扩展功能(图像/音频/视频/训练/ONNX)
    pip install sentence-transformers[image,audio,video,train,onnx]
    
    # 使用 uv 快速安装
    uv pip install sentence-transformers
    
    # Conda 安装
    conda install -c conda-forge sentence-transformers
    

    验证安装:

    python -c "from sentence_transformers import SentenceTransformer; print('✅ 安装成功')"
    

    🌟 核心功能

    1. 稠密嵌入(Dense Embeddings)—— RAG 的核心

    将句子、段落甚至整篇文档转换为固定维度的稠密向量(通常 384-1024 维),使得语义相似的文本在向量空间中距离更近。支持 Matryoshka 嵌入(可变尺寸,大向量拆小不降性能)和 嵌入量化压缩(降低 4-8 倍存储)。

    2. 交叉编码器重排序(Cross-Encoder Reranking)—— 精准召回

    稠密检索快速召回 Top-100 后,用 Cross-Encoder 对查询-文档对进行精细打分,重排序后 Top-5 准确率可提升 15-30%。这是生产级 RAG 系统的标配二阶段检索策略。

    3. 稀疏嵌入(Sparse Embeddings)—— 关键词 + 语义混合

    基于 SPLADE 等模型生成稀疏向量(维度 = 词表大小,但 99.8% 以上元素为 0),兼具 BM25 的关键词匹配能力和稠密向量的语义理解能力,实现真正的 混合检索

    4. 多模态嵌入 —— 图文音视统一向量空间

    通过统一 API 支持文本、图像、音频、视频四种模态的嵌入模型。例如用 AI-ModelScope/CLIP-ViT-bigG-patch14 可实现图文跨模态检索,用 laion/clap-htsat-unfused 实现音频语义搜索。

    5. 模型训练/微调 —— 适配你的业务场景

    提供 20+ 种嵌入模型损失函数(余弦相似度、三元组、对比学习等)、10+ 种重排序损失函数、10+ 种稀疏编码损失函数。支持多语言、多任务联合训练,仅需几十对标注样本即可微调出业务级模型。

    🚀 典型使用场景

    场景一:RAG 知识库检索(最流行)

    企业文档问答系统的标准做法:用 Sentence Transformers 将知识库切片编码为向量存入向量数据库(Chroma/Milvus/Qdrant),用户提问时实时编码查询向量,召回最相关的 Top-K 文档片段送给 LLM 生成答案。

    from sentence_transformers import SentenceTransformer
    from qdrant_client import QdrantClient
    
    # 1. 加载嵌入模型
    model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
    
    # 2. 编码知识库文档
    docs = ["公司报销流程...", "年假申请方法...", "IT设备申领..."]
    doc_embeddings = model.encode(docs)
    
    # 3. 存入向量数据库
    client = QdrantClient(":memory:")
    client.add(collection_name="kb", vectors=doc_embeddings, payload=docs)
    
    # 4. 用户提问检索
    query = "怎么申请年假?"
    query_vec = model.encode(query)
    results = client.search(collection_name="kb", query_vector=query_vec, limit=3)
    print(results[0].payload)  # 返回最相关文档
    

    场景二:语义搜索与去重(电商平台/内容平台)

    电商平台的商品搜索(用户输入”红色运动鞋”能匹配”红跑步鞋”)、新闻推荐系统去重、简历与岗位描述的语义匹配,都依赖 Sentence Transformers 的语义编码能力。

    场景三:跨语言语义匹配(全球化应用)

    支持 100+ 语言的预训练多语言模型(如 paraphrase-multilingual-MiniLM-L12-v2),可将中文、英文、日文等不同语言的相同语义映射到向量空间的相近位置,实现跨语言检索和匹配。

    💡 推荐理由

    1. RAG 工程师的”Hello World”

    几乎所有 RAG 教程的第一个代码示例都是 Sentence Transformers。它把复杂的 Transformer 编码、池化、归一化等步骤封装成一行 model.encode(),让开发者专注业务逻辑而非模型细节。langchain、LlamaIndex 等框架的底层检索默认就用它。

    2. Hugging Face 生态深度整合

    作为 Hugging Face 官方库,可直接 model = SentenceTransformer("your-model-name") 加载 Hub 上任意模型,也轻松将本地模型 push_to_hub() 分享给社区。15000+ 预训练模型即搜即用,覆盖从轻量级的 MiniLM(80MB)到旗舰级的 gte-Qwen3(数 GB)。

    3. 性能与精度的完美平衡

    all-MiniLM-L6-v2(仅 80MB)在 MTEB 排行榜上达到中上水平,推理速度却是最强模型的 10 倍。配合 Matryoshka 训练,768 维向量可截断为 384/256/128 维使用,存储和检索速度提升数倍,精度损失极小。

    4. 生产级可靠性

    2019 年开源至今,历经 6 年迭代,2800+ Fork、1300+ 贡献者,PyPI 月下载量超百万。Apache-2.0 许可完全免费商用,被 Google、Microsoft、Amazon、Meta 等大厂的内部系统广泛采用。

    🎯 适用人群: RAG 开发者、搜索工程师、NLP 算法工程师、推荐系统工程师、AI 全栈工程师。如果你正在构建任何需要”理解文本语义”的系统,Sentence Transformers 都是首选工具。

    📥 下载地址

    本文由 AI 自动整理,数据截至 2026 年 6 月。项目持续更新中,建议访问官方仓库获取最新信息。

  • MoneyPrinterTurbo:AI 自动生成短视频,93K+ Stars 让创作零门槛

    MoneyPrinterTurbo:AI 自动生成短视频,93K+ Stars 让创作零门槛

    🎬 MoneyPrinterTurbo:AI 自动生成短视频,93K+ Stars 让创作零门槛

    基于 AI 大模型的短视频自动生成工具|支持中英文|一键跨平台发布

    93.1K+
    ⭐ GitHub Stars
    Python
    💻 主要语言
    MIT
    📄 开源许可
    35K+
    📈 本月新增

    📌 项目简介

    MoneyPrinterTurbo 是一款基于 AI 大模型的短视频自动生成工具,由开发者 harry0703 创建并维护。只需提供一个视频主题或关键词,系统即可全自动完成文案生成、素材匹配、字幕合成、背景音乐搭配,最终输出高清短视频(支持竖屏 9:16 和横屏 16:9)。

    项目在 GitHub 上已获得 93,118 Stars,是本月 GitHub 趋势榜 Python 类目第二名(新增 35,397 Stars),深受内容创作者和 AI 爱好者欢迎。

    🔧 安装要求和过程

    环境要求

    • Python 版本:3.11+(推荐,项目使用 uv 管理依赖)
    • 核心依赖:Streamlit(Web界面)、FastAPI(API服务)、MoviePy 2.x(视频处理)、ffmpeg
    • AI 服务:需配置至少一家 LLM 提供商 API Key(支持 15+ 家)
    • 素材服务:需配置 Pexels 或 Pixabay API Key(免费申请)

    快速安装(三种方式)

    方式一:Docker 部署(推荐)

    # 1. 安装 Docker Desktop(Windows 用户需先配置 WSL)
    # 2. 克隆项目
    git clone https://github.com/harry0703/MoneyPrinterTurbo.git
    cd MoneyPrinterTurbo

    # 3. 一键启动(自动拉取预构建镜像)
    docker compose -f docker-compose.release.yml up

    # 4. 访问
    # Web 界面:http://127.0.0.1:8501
    # API 文档:http://127.0.0.1:8080/docs

    方式二:本地手动部署

    # 1. 克隆项目
    git clone https://github.com/harry0703/MoneyPrinterTurbo.git
    cd MoneyPrinterTurbo

    # 2. 使用 uv 安装依赖(推荐)
    uv python install 3.11
    uv sync –frozen

    # 3. 配置 API Key
    cp config.example.toml config.toml
    # 编辑 config.toml,填入 pexels_api_keys 和 llm_provider 配置

    # 4. 启动 Web 界面
    uv run streamlit run ./webui/Main.py –server.showEmailPrompt=False

    # 5. 启动 API 服务(可选)
    uv run python main.py

    方式三:Windows 一键启动包

    GitHub Release 下载最新一键启动包,解压后先双击 update.bat 更新代码,再双击 start.bat 启动即可。

    ✨ 核心功能

    • AI 全自动文案生成:接入 15+ 家 LLM 服务商(OpenAI / DeepSeek / Kimi / 通义千问 / Gemini / Ollama 等),自动生成视频脚本,支持中英文双语。
    • 智能素材匹配:集成 Pexels、Pixabay、Coverr 三大无版权素材源,根据文案关键词自动匹配高清视频片段,也支持上传本地素材。
    • 多语音合成引擎:内置 Edge TTS(免费,无需 API Key)、Azure TTS V2、ElevenLabs TTS,支持 23+ 种语言,可实时试听效果。
    • 丰富字幕样式:支持自定义字体、位置、颜色、大小、描边效果,基于 Pillow 渲染(不再依赖 ImageMagick),字幕时间戳精确对齐。
    • 一键跨平台发布:生成完成后可自动上传至 TikTok、Instagram、YouTube Shorts(需 Upload-Post 账号),YouTube 发布自动标注”AI 生成内容”。

    🚀 典型使用场景

    场景一:知识科普短视频批量生产

    自媒体运营者需要每天发布 3-5 条科普短视频,但缺乏视频剪辑时间和素材。使用 MoneyPrinterTurbo,只需输入”量子计算入门””黑洞是什么”等主题,AI 自动生成文案并匹配宇宙、科技素材,10 分钟内完成 5 条视频生成,大幅降低内容生产成本。

    场景二:跨境电商产品宣传视频

    电商卖家需要为每款产品制作多语言宣传短视频。通过自定义文案 + 本地素材上传功能,批量生成中英双语产品介绍视频,配合一键跨平台发布功能,快速覆盖 TikTok、Instagram 等海外社媒渠道。

    场景三:本地 LLM 隐私保护场景

    对数据隐私有严格要求的企业用户,可配置 Ollama 本地 LLM 提供商,所有文案生成均在本地完成,无需将敏感信息发送至第三方 API,兼顾 AI 能力提升与数据安全合规。

    💡 推荐理由

    作为一个 AI 工具爱好者,我认为 MoneyPrinterTurbo 最打动人的地方在于它的「降维打击式」易用性

    • 零视频编辑基础也能用:传统视频制作需要掌握剪辑软件、素材版权、配音等多项技能,而 MoneyPrinterTurbo 把这些全部封装成一个 Web 界面,点几下鼠标就能出片。
    • AI 大模型生态友好:支持 Ollama 本地模型是一大亮点,意味着你可以在没有 API 费用的情况下无限生成文案,对个人创作者非常友好。
    • 开源且活跃:MIT 许可允许自由修改和商用,社区活跃(本月新增 35K+ Stars),Bug 修复和功能迭代速度快。
    • 不只是「玩具」:内置的批量生成、API 接口、跨平台发布等功能,已经让它具备了生产级工具的属性,而不只是一个 Demo。
    ⚠️ 使用提醒:AI 生成的视频内容请注意平台审核规则,YouTube 已要求标注”AI 生成内容”。另外,虽然素材来自无版权平台,但商业使用前建议再次确认素材许可协议。

    🛠️ 技术栈

    Python 3.11
    Streamlit
    FastAPI
    MoviePy 2.x
    ffmpeg
    Edge TTS
    Docker
    uv

    🤖 支持的 AI 模型

    MoneyPrinterTurbo 支持接入以下大模型服务(在 config.toml 中配置):

    # LLM 提供商列表(任选其一配置 API Key)
    OpenAI / AIHubMix / AIML API / EvoLink
    Moonshot(Kimi)/ Azure / gpt4free / one-api
    通义千问(Qwen)/ Google Gemini / DeepSeek
    MiniMax / 文心一言 / Pollinations / ModelScope
    Ollama(本地模型,无需 API Key)💡 推荐个人用户使用

    📥 下载地址

    📌 开源许可:MIT License,可自由使用、修改和分发,包括商业用途。
    🌟 项目热度:93,118 Stars | 本月新增 35,397 Stars | GitHub Python 趋势榜 Top 2
    💬 社区:Issues 和 PR 活跃,开发者响应及时。

  • FastAPI:构建AI服务API的现代化Python框架,80K+ Stars让API开发快如闪电

    FastAPI:构建AI服务API的现代化Python框架,80K+ Stars让API开发快如闪电

    FastAPI Logo

    FastAPI — 构建API的现代化Python框架

    📌 项目简介

    FastAPI 是基于 Python 3.8+ 类型提示构建的高性能 Web 框架,专为构建 API 设计。它结合了 Starlette(Web部分)和 Pydantic(数据验证部分)的优点,让开发者能够用最少的代码快速构建生产级 API 服务。FastAPI 已成为 AI/ML 服务部署的标配框架,被 Netflix、Uber、Microsoft 等公司广泛使用。

    80K+
    GitHub Stars

    8.5K+
    Forks

    4.6K+
    贡献者

    MIT
    开源许可

    ⚙️ 安装要求和过程

    环境要求

    • Python:3.8+ (推荐 3.10+ 获得最佳性能)
    • 操作系统:Windows / macOS / Linux 全平台支持
    • 依赖项:Starlette(Web框架)、Pydantic v2(数据验证)、Uvicorn(ASGI服务器)

    快速安装

    # 安装 FastAPI 和 Uvicorn(ASGI 服务器)
    pip install fastapi uvicorn
    
    # 如果需要所有可选依赖(包括 JSON Schema 生成、OAuth2 等)
    pip install fastapi[all]
    
    # 创建第一个 API
    # main.py
    from fastapi import FastAPI
    
    app = FastAPI()
    
    @app.get("/")
    async def root():
        return {"message": "Hello World"}
    
    # 启动服务
    # uvicorn main:app --reload

    依赖说明

    依赖 用途
    Starlette Web 框架核心,处理请求路由、中间件、WebSocket等
    Pydantic v2 数据验证和序列化,基于 Python 类型提示
    Uvicorn 高性能 ASGI 服务器,用于运行 FastAPI 应用
    httpx 异步 HTTP 客户端,用于测试

    🚀 核心功能

    1. 基于类型提示的自动数据验证

    利用 Python 3.8+ 的类型提示(Type Hints)和 Pydantic,FastAPI 自动对请求参数、请求体进行数据验证,无需手动编写验证逻辑。如果验证失败,自动返回清晰的错误信息。

    from fastapi import FastAPI
    from pydantic import BaseModel
    
    class Item(BaseModel):
        name: str
        price: float
        is_offer: bool = False
    
    app = FastAPI()
    
    @app.post("/items/")
    async def create_item(item: Item):
        return {"item_name": item.name, "price": item.price}

    2. 自动生成 API 文档(OpenAPI & JSON Schema)

    FastAPI 基于 OpenAPI 标准自动生成交互式 API 文档,无需额外配置。启动服务后访问 /docs 即可看到基于 Swagger UI 的交互式文档,访问 /redoc 可看到 ReDoc 文档。

    💡 自动文档:定义好 Pydantic 模型后,FastAPI 会自动生成符合 OpenAPI 规范的 JSON Schema,并渲染为可交互的文档界面,大大降低了前后端协作成本。

    3. 异步支持(async/await)

    基于 Python 的 async/await 语法,FastAPI 原生支持异步请求处理,能够充分利用现代 Python 的异步能力,处理高并发请求时性能卓越。与 Node.js 和 Go 相当的性能表现。

    4. 依赖注入系统

    <

    FastAPI 提供了强大而直观的依赖注入(Dependency Injection)系统,可以轻松实现认证、数据库连接、权限校验等横切关注点,代码复用率高且易于测试。

    from fastapi import Depends, HTTPException
    
    async def verify_token(token: str):
        if token != "secret":
            raise HTTPException(status_code=401)
        return token
    
    @app.get("/protected")
    async def protected_route(token: str = Depends(verify_token)):
        return {"message": "Authenticated!"}

    5. 安全性内置支持

    FastAPI 内置了 HTTP 基础认证、OAuth2、JWT、API Key 等多种认证方式,并提供了完整的安全工具函数,帮助开发者轻松构建安全的 API 服务。

    💡 典型使用场景

    场景一:AI/ML 模型服务化部署

    FastAPI 是 AI/ML 模型服务化部署的首选框架。结合 PyTorch/TensorFlow/ONNX Runtime,可以快速将训练好的模型封装为 HTTP API,供其他服务调用。

    from fastapi import FastAPI
    import torch
    from transformers import pipeline
    
    app = FastAPI()
    model = pipeline("sentiment-analysis")
    
    @app.post("/predict")
    async def predict(text: str):
        result = model(text)[0]
        return {"label": result["label"], "score": result["score"]}

    案例:Hugging Face 的 Inference API、Modal、Replicate 等 AI 推理平台都使用 FastAPI 作为底层 API 框架。

    场景二:微服务架构中的 API 网关

    FastAPI 的高性能和异步特性使其非常适合作为微服务架构中的 API 网关或边缘服务,负责请求路由、认证、限流、日志等横切关注点。

    案例:Netflix 使用 FastAPI 构建部分数据管道的 API 服务;Microsoft 在 Azure 的一些内部服务中使用 FastAPI。

    场景三:实时 WebSocket 应用

    FastAPI 基于 Starlette,原生支持 WebSocket,适合构建实时通信应用,如在线聊天、实时数据推送、协同编辑等。

    from fastapi import FastAPI, WebSocket
    
    app = FastAPI()
    
    @app.websocket("/ws")
    async def websocket_endpoint(websocket: WebSocket):
        await websocket.accept()
        while True:
            data = await websocket.receive_text()
            await websocket.send_text(f"Message: {data}")

    🌟 推荐理由

    FastAPI 是我个人最喜爱的 Python Web 框架,没有之一。以下是我的使用心得:

    • 开发效率极高:类型提示 + 自动验证 + 自动文档,让我能够专注于业务逻辑,而不是花时间写样板代码和文档。
    • 学习曲线平缓:如果你熟悉 Python 类型提示,只需一个下午就能上手 FastAPI。官方文档非常详细,包含大量示例代码。
    • 性能卓越:基于 Starlette 和 Pydantic,FastAPI 的性能可以媲美 Go 和 Node.js,在 Python Web 框架中属于第一梯队。
    • AI/ML 生态友好:FastAPI 是 AI/ML 社区的首选 API 框架,与 PyTorch、TensorFlow、Hugging Face Transformers 等库无缝集成。
    • 生产就绪:内置数据验证、序列化、认证、文档等生产级特性,不需要依赖大量第三方库。

    💡 个人建议:如果你正在构建 AI 服务的 API 接口,FastAPI 是不二之选。它不仅能提升你的开发效率,还能确保服务的性能和可维护性。我几乎所有 AI 相关的后端项目都使用 FastAPI。

    📊 技术对比:FastAPI vs Flask vs Django

    特性 FastAPI Flask Django
    性能 ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐
    异步支持 原生支持 需第三方库 部分支持
    数据验证 自动(Pydantic) 需手动/Marshmallow Forms/Serializers
    API 文档 自动生成 需第三方库 DRF 支持
    学习曲线 平缓 最平缓 陡峭
    适用场景 API 服务、AI/ML 小型应用、原型 全栈 Web 应用

    📥 下载地址

    快速开始

    # 安装 FastAPI 和 Uvicorn
    pip install fastapi uvicorn
    
    # 创建 main.py
    from fastapi import FastAPI
    
    app = FastAPI()
    
    @app.get("/")
    async def root():
        return {"message": "Hello FastAPI"}
    
    # 启动开发服务器
    uvicorn main:app --reload
    
    # 浏览器访问 http://localhost:8000/docs

    🚀 同类推荐

    如果你喜欢 FastAPI,还可以关注:

    • Starlette:FastAPI 的底层 Web 框架,如果你需要更底层的控制
    • Pydantic:FastAPI 使用的数据验证库,也可独立使用
    • Uvicorn:FastAPI 推荐的 ASGI 服务器
    • Flask:轻量级 Web 框架,适合小型项目
    • Django REST Framework:如果你需要全栈 Web 框架 + API

    📌 本文定期更新,最后更新:2026年6月 | 项目GitHub:fastapi/fastapi

  • Haystack:构建生产级 LLM 应用的首选 AI 编排框架,25K+ Stars 让 RAG 和 Agent 工作流完全透明可控

    Haystack:构建生产级 LLM 应用的首选 AI 编排框架,25K+ Stars 让 RAG 和 Agent 工作流完全透明可控

    Haystack Banner

    Haystack 是由 deepset 团队(已被 Cohere 收购)开发的开源 AI 编排框架,专为构建生产级 LLM 应用而设计。它让开发者以显式控制的方式设计模块化 Pipeline 和 Agent 工作流,覆盖 RAG、多模态、语义搜索、问答系统和自主智能体等场景。

    📦 安装要求和过程

    环境要求

    • Python >= 3.9(推荐 3.10+)
    • pip 包管理器
    • 可选:Docker(用于容器化部署)
    • 可选:GPU(用于本地模型推理加速)

    快速安装

    # 安装稳定版
    pip install haystack-ai

    # 安装 nightly 预览版(尝鲜最新功能)
    pip install –pre haystack-ai

    # 验证安装
    python -c “import haystack; print(haystack.__version__)”

    💡 可选依赖:pip install haystack-ai[openai,anthropic,mistral] 可一次性安装主流模型提供商支持。

    🚀 核心功能

    🧠

    上下文工程优先

    显式控制信息检索、排序、过滤、组合、结构化和路由的全流程。Pipeline 和 Agent 工作流完全透明、可追踪。

    🔄

    模型与厂商无关

    集成 OpenAI、Mistral、Anthropic、Cohere、HuggingFace、Azure、AWS Bedrock、本地模型等。切换模型或基础设施无需重写系统。

    🧩

    模块化与可定制

    内置检索、索引、工具调用、记忆、评估等组件,也可自定义。支持循环、分支和条件逻辑,精确控制上下文流转。

    🌐

    可扩展生态系统

    通过统一接口构建和共享自定义组件,社区和第三方可轻松扩展 Haystack。支持 Hayhooks 将 Pipeline 包装为 REST API 或 MCP 服务器。

    💡 典型使用场景

    1

    企业级 RAG 知识库系统

    某德国联邦部委使用 Haystack 构建了面向公众的语义搜索系统,支持多语言文档检索和精准问答。通过 Haystack 的混合检索(稠密+稀疏向量)和重排序功能,实现了比传统关键词搜索高出 3 倍的准确率。系统部署在私有云上,数据完全合规。

    2

    多模态 AI 客服助手

    某欧洲航空公司使用 Haystack 构建了支持文本+图片输入的客服 Agent,客户可以上传行李损坏照片,Agent 自动检索相关政策文档并生成处理建议。Haystack 的多模态 Pipeline 设计让文本和视觉信息在统一框架下协同工作,大幅缩短了投诉处理周期。

    🌟 推荐理由

    💬 笔者心得

    在尝试了 LangChain、LlamaIndex 等多个 LLM 应用框架后,Haystack 给我留下的印象是「透明」和「可控」。与 LangChain 的「黑盒」链式调用不同,Haystack 的 Pipeline 是显式定义的——每个组件的输入输出、数据流向都一目了然,调试起来非常直观。

    特别值得一提的是 Haystack 对上下文工程(Context Engineering)的重视。在 RAG 系统中,如何精准控制检索策略、如何组合多路召回结果、如何设计记忆机制,这些才是决定效果的关键。Haystack 把这些控制权交给了开发者,而不是封装成不可见的「魔法」。

    另外,Haystack 的企业级基因也很突出——它诞生于 deepset 的商业化实践,从第一天就考虑了生产部署、可观测性、访问控制等现实需求。现在 deepset 被 Cohere 收购,Haystack 企业版(Haystack Enterprise Platform)更是提供了托管化生产 setup,对的企业用户来说是很好的选择。

    📥 下载地址

    🌐 官方网站

    haystack.deepset.ai

    🐙 GitHub 仓库

    github.com/deepset-ai/haystack

    25,730+ Stars · 2,884+ Forks

    📚 官方文档

    docs.haystack.deepset.ai

    💬 Discord 社区

    discord.gg/qZxjM4bAHU

    🐍 PyPI 安装

    pip install haystack-ai

    🍳 Cookbook 食谱

    haystack.deepset.ai/cookbook

    📊 项目速览
    ⭐ Stars:25,730+
    🍴 Forks:2,884+
    📅 创建时间:2019-11
    🔄 最近更新:2026-06-26
    📝 开源许可:Apache-2.0
    💻 主要语言:Python
    🏢 维护团队:deepset(Cohere 旗下)
    🌟 用户案例:Apple、Meta、NVIDIA、Netflix、Airbus 等

  • Voicebox:开源AI语音工作室,本地替代ElevenLabs+WisprFlow,34K+Stars让AI开口说话

    Voicebox:开源AI语音工作室,本地替代ElevenLabs+WisprFlow,34K+Stars让AI开口说话

    🎙️ Voicebox:开源 AI 语音工作室

    免费替代 ElevenLabs + WisprFlow 的全栈 AI 语音解决方案,34K+ Stars,MIT 许可

    34K+
    GitHub Stars
    7种
    TTS 引擎
    23
    支持语言
    500+
    开发者
    关注者
    MIT
    开源许可

    📌 项目简介

    Voicebox 是一个开源的 AI 语音工作室,由独立开发者 jamiepine 打造,旨在提供完全本地运行的 AI 语音解决方案。它将”语音生成(替代 ElevenLabs)”和”语音输入(替代 WisprFlow)”二合一,所有模型和数据完全在本地运行,无需上传云端,是隐私优先的 AI 语音工具首选。

    项目基于 Tauri (Rust) 桌面端 + React/TypeScript 前端 + FastAPI Python 后端架构,支持 macOS、Windows 和 Docker 部署,内置 7 种 TTS 引擎、Whisper STT、本地 Qwen3 LLM,并原生支持 MCP 协议,让 AI 智能体也能”开口说话”。

    ⚙️ 安装要求和过程

    环境要求

    • macOS:Apple Silicon (M1+) 或 Intel Mac,推荐 16GB 内存
    • Windows:Windows 10+,支持 CUDA GPU 加速(NVIDIA)或 DirectML(任意 GPU)
    • Linux:从源码构建,支持 CUDA/ROCm GPU 加速
    • 通用:Python 3.11+,Rust(开发构建),Bun (JS 运行时)

    快速安装(预编译包)

    # macOS (Apple Silicon)
    curl -L https://voicebox.sh/download/mac-arm -o Voicebox.dmg

    # macOS (Intel)
    curl -L https://voicebox.sh/download/mac-intel -o Voicebox.dmg

    # Windows
    # 下载 MSI:https://voicebox.sh/download/windows

    # Docker 一键启动
    git clone https://github.com/jamiepine/voicebox.git
    cd voicebox
    docker compose up

    从源码开发构建

    # 克隆仓库
    git clone https://github.com/jamiepine/voicebox.git
    cd voicebox

    # 安装 just 命令工具(任务运行器)
    brew install just # macOS
    # 或 cargo install just

    # 一键安装依赖并启动开发服务器
    just setup
    just dev

    # 构建生产版本
    just build # CPU 版本
    just build-local # Windows + CUDA 版本

    🌟 核心功能

    🎤 7 种 TTS 引擎,覆盖全场景

    Voicebox 集成了 7 种开源 TTS 引擎,从超轻量的 Kokoro (82M) 到高质量的 HumeAI TADA (3B),满足不同场景需求:

    引擎 语言数 模型大小 核心优势
    Qwen3-TTS 10 0.6B/1.7B 高质量多语言克隆,支持发音指令
    Chatterbox Multilingual 23 ~1GB 语言覆盖最广,支持阿拉伯语/芬兰语等
    Chatterbox Turbo 英语 350M 超快速度,支持 [laugh]/[sigh] 表情标签
    Kokoro 8 82M 极小模型,CPU 实时 10x+ 速度
    LuxTTS 英语 ~1GB 48kHz 输出,CPU 150x 实时速度
    HumeAI TADA 10 1B/3B 语音语言模型,支持 700s+ 连贯音频
    Qwen CustomVoice 10 自然语言控制发音,无需参考音频

    🗣️ 语音克隆 + 无限长度生成

    支持从几秒音频进行零样本语音克隆,同时内置 Kokoro 和 Qwen CustomVoice 的 50+ 精选预设语音。独创”无限长度生成”机制——自动按句子拆分文本,分块生成后交叉淡入淡出拼接,最大支持 50,000 字符的文本输入,彻底打破 TTS 长度限制。

    🎧 全局语音输入(Dictation)

    支持全局热键语音输入,macOS 支持自动粘贴到当前文本框(按住说话/切换模式)。内置 Whisper STT,支持可选 LLM 优化去除口癖、停顿,让语音输入更流畅自然。相当于开源版的 WisprFlow!

    🤖 AI 智能体语音输出(MCP 支持)

    内置本地 MCP 服务器,支持 Claude Code、Cursor、Cline 等 AI 编程助手通过 voicebox.speak 工具调用,让 AI 智能体用克隆的语音”开口说话”。支持为不同智能体绑定不同语音,实现个性化语音输出。

    # Claude Code 一键配置 MCP
    claude mcp add voicebox –transport http –url http://127.0.0.1:17493/mcp –header “X-Voicebox-Client-Id: claude-code”

    🎬 语音故事编辑器 + 音频后处理

    内置多轨道时间线编辑器,支持对话、播客、叙事内容制作,支持拖拽、音频裁剪、同步播放。基于 Spotify pedalboard 库提供 8 种音频后处理效果(音调偏移、混响、延迟、合唱、压缩等),并内置”机器人”、”电台”、”回声室”、”低音”4 种预设效果链。

    💡 典型使用场景

    场景一:AI 编程助手语音通知

    长时间运行的编程任务(如模型训练、测试套件)完成后,通过 Voicebox MCP 集成,让 Claude Code 或 Cursor 用你喜欢的语音播报结果:”测试全部通过,共 42 个用例,耗时 3 分 12 秒”。不用盯着屏幕,声音告诉你进度!

    场景二:多语言内容创作

    使用 Chatterbox Multilingual 引擎(支持 23 种语言),配合语音克隆功能,内容创作者可以用自己(或任何)的声音生成多语言版本的视频配音、播客内容。Qwen3-TTS 还支持输入发音指令(如”慢点说”、”小声说”),让生成语音更自然。

    场景三:本地隐私优先的语音输入替代

    替代 WisprFlow 等云端语音输入工具,所有语音识别和转录均在本地运行(Whisper STT),语音数据不上传任何云端服务器。对隐私敏感的用户、企业内网环境,或者需要离线使用的场景,Voicebox 是最佳选择。

    💬 推荐理由

    为什么推荐 Voicebox?

    1. 隐私优先,本地全栈。模型、语音数据、录音内容完全本地存储,不依赖任何云服务。对于关注数据隐私的开发者来说,这一点至关重要。

    2. 二合一解决方案。一个工具同时替代 ElevenLabs(语音生成)和 WisprFlow(语音输入),不需要订阅两个服务,省心省钱。

    3. 引擎覆盖全面。7 种 TTS 引擎从 82M 到 3B 参数,从 CPU 到 GPU 加速,从英语到 23 种语言,几乎覆盖了所有使用场景。

    4. MCP 原生支持。AI 智能体生态正在爆发,Voicebox 率先支持 MCP 协议,让 AI 智能体具备语音输出能力,这在开源项目中非常前瞻。

    5. 活跃开发中。485 个开放 Issues 说明社区非常活跃,项目在快速迭代。MIT 许可允许自由修改和分发,适合二次开发。

    个人使用感受:Voicebox 的 MCP 集成体验非常顺滑,配置一次后,Claude Code 就能直接调用语音输出。用它来做长时间编程任务的语音通知,比盯着终端看进度条优雅太多。唯一的小遗憾是 Linux 目前还没有预编译包,需要自己从源码构建。

    📥 下载地址

    项目信息:
    ⭐ GitHub Stars: 34,192
    📜 开源许可: MIT License
    💻 技术栈: Tauri (Rust) + React/TypeScript + FastAPI (Python)
    🌐 官网: voicebox.sh
    📦 Docker: docker compose up
    最近更新: 2026 年 6 月

  • OpenMontage:全球首个开源 AI 智能体视频制作系统,21.2K+ Stars 让 AI 编程助手变身视频工作室

    OpenMontage:全球首个开源 AI 智能体视频制作系统,21.2K+ Stars 让 AI 编程助手变身视频工作室

    🎬

    OpenMontage:全球首个开源 AI 智能体视频制作系统

    21.2K+ Stars | AGPL-3.0 | Python/TypeScript | calesthio 出品

    OpenMontage 是全球首个开源的智能体驱动(agentic)视频生产系统,包含 12 条生产管线52 个生产工具500+ 智能体技能。将你的 AI 编码助手(Claude Code/Cursor/GitHub Copilot 等)转化为完整的视频制作工作室,支持从创意到成片的端到端全流程自动化生产。

    21.2K+
    GitHub Stars

    12
    生产管线

    52
    生产工具

    500+
    智能体技能

    ⚙️
    安装要求和过程

    环境要求

    • Python 3.10+
    • FFmpeg(视频编码、字幕烧录、音频混合)
    • Node.js 18+(Remotion 合成引擎)
    • 任意支持的 AI 编码助手(Claude Code/Cursor/GitHub Copilot 等)

    快速安装

    # 一键安装(推荐)

    git clone https://github.com/calesthio/OpenMontage.git
    cd OpenMontage
    make setup

    # 无 make 手动安装

    pip install -r requirements.txt
    cd remotion-composer && npm install && cd ..
    pip install piper-tts
    cp .env.example .env

    本地 GPU 支持(免费视频生成)

    make install-gpu
    # 然后在 .env 中配置:
    VIDEO_GEN_LOCAL_ENABLED=true
    VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b # 可选 wan2.1-14b、hunyuan-1.5 等


    核心功能

    🎬

    12 条全流程生产管线

    覆盖动画讲解、动画制作、虚拟人播报、电影感剪辑、短视频批量生成、纪录片蒙太奇、混合制作、本地化配音、播客剪辑、屏幕演示、口播视频等场景。每条管线遵循「研究 → 提案 → 脚本 → 分镜 → 资产 → 剪辑 → 合成」的标准化流程。

    🎨

    双渲染引擎支持

    Proposal 阶段锁定渲染运行时,可选 Remotion(React 组件化合成,适合数据驱动讲解)或 HyperFrames(HTML/CSS/GASP 合成,适合动态图形和 SVG 角色动画)。禁止运行时静默切换,确保生产一致性。

    💰

    零成本/本地免费生产路径

    无需 API 密钥即可使用 Piper TTS 离线配音、Archive.org/NASA/Pixabay 等免费素材库、Remotion/HyperFrames 合成、FFmpeg 后期处理。还支持本地 GPU 运行 WAN 2.1、Hunyuan 等免费视频生成模型。

    🎯

    7 维评分自动选品

    所有工具选择通过「任务匹配度 30%、输出质量 20%、可控性 15%、可靠性 15%、成本效率 10%、延迟 5%、连续性 5%」的打分机制自动选择最优供应商,所有决策可追溯。

    生产级质量门禁

    包含合成前校验(阻断交付承诺不符、幻灯片风险过高的问题)、渲染后自检(ffprobe 验证、抽帧检查、音频分析、字幕校验)、决策审计日志(所有创意/技术选择留痕可查),避免输出无效内容。

    🚀
    典型使用场景

    📚

    教育内容创作

    输入「做一个 60 秒的动画讲解,主题是为什么天空是蓝色的」,AI 自动完成脚本编写、分镜设计、配音合成、字幕添加,全程无需手工操作。支持零密钥本地免费生成。

    🎬

    参考视频驱动创作

    粘贴 YouTube/Reels/TikTok 链接,智能体自动分析参考视频的节奏、结构、风格,输出 2-3 个差异化创意方案(含成本预估和效果预览),避免从零开始构思。

    📰

    纪录片/蒙太奇制作

    「做一个 90 秒的纪录片蒙太奇,主题是凌晨 4 点的城市氛围,仅使用实拍素材,无旁白,elegiac 基调。」支持 Archive.org 等免费素材库自动检索和剪辑。

    🎨

    风格化动画生成

    「做一个 30 秒的吉卜力风格动画,内容是云端的魔法浮动图书馆,黄金时段场景。」配置图像/视频 API 后,成本约 $0.15-$1.50 即可生成风格化动画。

    💡
    推荐理由

    💡

    OpenMontage 是我近期看到的最有想象力的 AI + 创意工具结合项目之一。它不只是「AI 生成视频」的工具,而是一个完整的视频生产管线系统——把 AI 编程助手变成了导演、编剧、分镜师、剪辑师、配音演员的集合体。

    最打动我的是它的「零成本路径」设计:你可以完全不花一分钱(无需任何 API Key)就生成完整的视频——使用 Piper 离线 TTS 配音、免费素材库、本地 FFmpeg 处理。对于个人创作者和学习者,这是极大的降低门槛。

    另外,它的7 维评分自动选品机制生产级质量门禁,让我看到了这个项目是「真正可用于生产」的,而不仅仅是 Demo 级别的玩具。所有决策留痕可查,合成前/后双重校验,这些设计在开源项目中非常少见。

    「如果你已经在使用 Claude Code 或 Cursor,OpenMontage 能让你用同样的工作流(写提示词 → 看结果 → 迭代)来「编程」视频,而不是去学习 PRo/Afer Effects。」

    🔧
    支持的 AI 工具与服务商

    兼容的 AI 编码助手:Claude Code、Cursor、GitHub Copilot、Windsurf、Codex(后续支持 Ollama、LM Studio 本地大模型)

    视频生成:Kling、Runway Gen-4、Google Veo 3、Grok Imagine Video、Higgsfield、MiniMax、HeyGen、WAN 2.1、Hunyuan、CogVideo、LTX-Video、Pexels、Pixabay、Wikimedia Commons

    图像生成:FLUX、Google Imagen 4、Grok Imagine Image、DALL-E 3、Recraft、Local Diffusion、Pexels、Pixabay、Unsplash、ManimCE

    文本转语音:ElevenLabs、Google TTS(700+ 音色)、OpenAI TTS、Piper(免费离线)

    音乐/音效:Suno AI、ElevenLabs Music、ElevenLabs SFX

    📥
    下载地址

    授权协议:AGPL-3.0(免费开源)
    开发语言:Python, TypeScript, Rust
    出品团队:calesthio(YC S26 孵化项目)

  • Weaviate:AI 开发者最爱的开源向量数据库,语义搜索与 RAG 的首选数据底座

    Weaviate:AI 开发者最爱的开源向量数据库,语义搜索与 RAG 的首选数据底座

    📦 项目简介

    Weaviate 是一款开源、云原生的向量数据库,同时存储对象和向量,支持大规模语义搜索。它将向量相似度搜索、关键词过滤、检索增强生成(RAG)和重排序功能整合到单个查询接口中,是构建 AI 应用的理想数据底座。

    Weaviate Logo

    ⚙️ 安装要求和过程

    环境要求

    • Docker 20.10+(推荐方式)
    • 内存:最低 4GB RAM,生产环境建议 8GB+
    • 客户端:Python 3.8+、Node.js 16+、Java 11+、Go 1.18+

    快速安装(Docker 本地部署)

    第一步:创建 docker-compose.yml

    services:
      weaviate:
        image: cr.weaviate.io/semitechnologies/weaviate:1.36.0
        ports:
          - "8080:8080"
          - "50051:50051"
        environment:
          ENABLE_MODULES: text2vec-model2vec
          MODEL2VEC_INFERENCE_API: http://text2vec-model2vec:8080
      text2vec-model2vec:
        image: cr.weaviate.io/semitechnologies/model2vec-inference:minishlab-potion-base-32M
    

    第二步:启动 & 安装客户端

    docker compose up -d
    pip install -U weaviate-client
    

    也可使用 Weaviate Cloud 免费试用,或部署到 Kubernetes/AWS/GCP。

    🚀 核心功能

    ⚡ 毫秒级十亿向量搜索

    基于 Go 构建,HNSW 索引,十亿级向量语义搜索毫秒返回。

    🔀 混合检索(向量+关键词+过滤)

    单接口同时支持语义搜索、BM25 关键词搜索、图像搜索,内置 hybrid 查询自动融合分数。

    🤖 内置 RAG & 重排序

    无需额外工具,直接支持生成式搜索(RAG)和重排序,快速构建 Q&A、聊天机器人。

    📈 生产级可扩展性

    支持水平扩展、多租户隔离、副本、RBAC 权限控制,Kubernetes 原生编排。

    💾 向量压缩 & TTL

    内置标量/二进制/产品量化,大幅降低内存占用;支持对象 TTL 自动清理过期数据。

    💡 典型使用场景

    场景一:RAG 检索增强生成系统

    将企业文档导入 Weaviate,结合 LLM 构建精准问答系统,大幅降低幻觉率。

    import weaviate
    from weaviate.classes.query import Filter
    
    client = weaviate.connect_to_local()
    results = client.collections.get("Document").query.near_text(
        query="如何申请退款?", limit=5,
        filters=Filter.by_property("category").equal("help")
    )
    for obj in results.objects:
        print(obj.properties["content"])
    

    场景二:语义搜索 & 推荐引擎

    电商/内容平台实现”理解意图”的搜索,支持多模态(文本+图像)检索。

    📌 推荐理由

    • 生态最完整:Python/JS/Java/Go/C# 五大官方 SDK
    • AI Agent 集成:官方提供 Agent Skills,支持 Claude Code/Cursor
    • 商业友好:BSD-3-Clause 许可,可自由修改和分发
    • 云原生架构:存储计算分离,Kubernetes 原生,水平扩展无忧

    📥 下载地址 & 相关链接

    ✝️ BSD 3-Clause License | Go | 2016年发布