标签: 开源

  • 【开源推荐】markitdown:150K+ Stars!微软开源文档转Markdown神器,LLM管道必备

    【开源推荐】markitdown:150K+ Stars!微软开源文档转Markdown神器,LLM管道必备

    MICROSOFT 开源

    markitdown

    150K+ Stars · 将任意文档一键转换为 Markdown

    Python 3.10+
    MIT 开源
    LLM 友好
    📌 项目简介

    markitdown 是微软出品的一款轻量级 Python 工具,支持将 PDF、PowerPoint、Word、Excel、HTML、CSV、JSON、音频、视频等 数十种文件格式 统一转换为 Markdown 格式,是大模型文档处理管道中的核心基础设施。

    安装要求与过程

    环境要求
    • Python 3.10 及以上版本
    • 推荐使用虚拟环境(venv / uv / conda)
    • pip 21.0+(用于安装可选依赖组)
    快速安装(全格式支持)
    # 全量安装(推荐)
    pip install 'markitdown[all]'
    
    # 命令行直接使用
    markitdown document.pdf > output.md
    
    # Python API 使用
    from markitdown import MarkItDown
    md = MarkItDown()
    result = md.convert("document.pdf")
    print(result.text_content)

    按需安装(减少依赖体积)
    pip install 'markitdown[pdf, docx, pptx]'   # 仅 PDF/Word/PPT
    pip install 'markitdown[youtube-transcription]'  # 仅 YouTube 字幕

    核心功能

    📄 多格式支持
    PDF、Word、PPT、Excel、HTML、CSV、JSON、XML、EPUB、ZIP,覆盖办公全场景

    🖼️ 图片 & 音频
    图片 EXIF 元数据提取 + OCR,音频语音转写,视频字幕自动获取

    🤖 LLM 集成
    可调用 GPT-4V 等大模型为图片/幻灯片生成描述,增强多模态理解

    🔌 插件扩展
    支持第三方插件(如 markitdown-ocr),社区插件标签 #markitdown-plugin

    ☁️ Azure 集成
    支持 Azure Document Intelligence 和 Azure Content Understanding,企业级文档解析能力

    典型使用场景

    场景一:RAG 知识库文档预处理

    在构建 RAG(检索增强生成)应用时,需要将企业内部的 PDF 手册、Word 文档、PowerPoint 课件统一转换为 Markdown,再切片嵌入向量数据库。markitdown 一条命令批量处理,保留标题层级和表格结构,大幅提升检索精度。

    for f in docs/*.pdf; do
      markitdown "$f" -o "md/${f%.pdf}.md"
    done

    场景二:LLM 文档理解管道

    将用户上传的任意格式文档(简历、合同、报告)转换为 Markdown 后传给 LLM 进行分析、摘要或信息提取。markitdown 的 Markdown 输出对 Token 消耗远低于原始二进制格式,降低成本。

    from markitdown import MarkItDown
    md = MarkItDown()
    result = md.convert("contract.docx")
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role":"user","content":f"摘要:{result.text_content}"}]
    )

    💡 推荐理由

    作为一名经常和 LLM 打交道的开发者,markitdown 已经成为我工具箱里的常驻成员。它的价值在于把”任意文档”变成”LLM 能理解的文本”,这在大模型应用开发中是一个高频且痛点的需求。

    最让我惊喜的是它的格式保留能力——转换后的 Markdown 仍然保留表格结构、标题层级和链接,这直接决定了 RAG 检索的质量。相比之下,很多同类工具转换后就只剩纯文本了。

    来自微软 AutoGen 团队的维护保证,加上 150K+ Stars 的社区验证,这款工具的可靠性和迭代速度都非常值得信赖。如果你正在做任何涉及文档处理的大模型应用,markitdown 绝对是不二之选。

    由 AI 自动整理,更多开源项目介绍持续更新中 🚀

  • 【开源推荐】awesome-mcp-servers:82.7K+ Stars!MCP生态最全服务器资源集合

    【开源推荐】awesome-mcp-servers:82.7K+ Stars!MCP生态最全服务器资源集合

    【开源推荐】awesome-mcp-servers:82.7K+ Stars!MCP生态最全服务器资源集合

    ⭐ GitHub 82.7K+ Stars
    🔌 MCP生态必备

    📌 项目简介

    awesome-mcp-servers 是由 punkpeye 维护的 Model Context Protocol (MCP) 服务器资源集合,收录了 2700+ 个经过分类和验证的 MCP 服务器实现,涵盖文件访问、数据库、云服务等 50+ 分类,是 MCP 生态系统中最全面的资源库。

    🎯 核心亮点

    📦

    2700+ 服务器收录

    涵盖文件、数据库、云服务、开发工具等 50+ 分类,每个服务器都经过验证,质量有保障。

    🔌

    MCP 官方推荐

    作为 MCP 生态的权威资源集合,被 Anthropic 官方文档引用,是开发者接入 MCP 的首选参考。

    🏗️

    分类清晰易检索

    按功能、编程语言、部署方式多维度分类,支持中文文档(README-zh.md),中文开发者友好。

    🚀

    持续更新活跃

    社区驱动,每日更新新服务器。截至 2026 年 6 月已收录 2700+ 服务器,仍在快速增长中。

    📚 热门 MCP 服务器分类

    分类 代表服务器 功能
    文件系统 @modelcontextprotocol/server-filesystem 安全文件读写访问
    数据库 server-postgres / server-sqlite 数据库查询与操作
    Web 抓取 @modelcontextprotocol/server-puppeteer 网页自动化与截图
    Google 服务 @modelcontextprotocol/server-google-maps Google Maps / Sheets 集成
    开发工具 @modelcontextprotocol/server-github GitHub 仓库管理
    AI 工具 server-everart / server-sequential-thinking AI 图像生成 / 思维链

    ⚙️ 快速开始:使用 MCP 服务器

    # 安装 MCP 官方 SDK
    npm install -g @modelcontextprotocol/sdk
    
    # 使用 Awesome MCP Servers 推荐的服务器
    # 1. 文件系统服务器
    npx -y @modelcontextprotocol/server-filesystem /path/to/allowed/dir
    
    # 2. Google Sheets 服务器
    npx -y @modelcontextprotocol/server-google-sheets
    
    # 3. 在 Claude Desktop 中配置
    # 编辑 ~/Library/Application Support/Claude/claude_desktop_config.json
    {
      "mcpServers": {
        "filesystem": {
          "command": "npx",
          "args": ["-y", "@modelcontextprotocol/server-filesystem", "/允许访问的目录"]
        },
        "github": {
          "command": "npx", 
          "args": ["-y", "@modelcontextprotocol/server-github"]
        }
      }
    }
    
    # 4. 重启 Claude Desktop,即可使用 MCP 工具
    

    💡 典型使用场景

    场景1:AI 助手访问本地文件

    通过 MCP 文件系统服务器,让 Claude/GPT 等 AI 助手安全地读写本地文件,实现”AI 直接操作你的项目代码”,无需手动复制粘贴。

    场景2:AI 自动操作 GitHub

    配置 GitHub MCP 服务器后,AI 助手可以直接创建 Issue、提交 PR、审查代码。让 AI 真正成为你的 编程搭档

    场景3:数据库连接与查询

    通过 Postgres/MySQL MCP 服务器,让 AI 直接查询数据库、生成报表。自然语言转 SQL 不再需要中间层,AI 直接操作数据库。

    💬 推荐理由

    如果你正在关注 MCP(Model Context Protocol),这个项目是你必收藏的资源指南。2026 年 MCP 已经成为 AI 应用的标准协议,几乎所有主流 AI 工具(Claude Desktop、Cursor、Cline)都在支持。

    这个集合的价值在于:你不需要到处找”有没有 XXX 功能的 MCP 服务器”,来这里搜索就好了。2700+ 服务器 覆盖了几乎所有你能想到的场景。

    特别推荐它的 中文文档(README-zh.md),对国内开发者非常友好。如果你正在构建 AI 应用并需要接入外部工具,先从这里找现成的 MCP 服务器,能省大量开发时间。

    📌 本文由自动化任务采集整理,数据截至 2026 年 6 月

    🏷️ 标签:MCP · AI Agent · 资源集合 · 开发工具

  • 【开源推荐】Goose:48.7K+ Stars!Linux Foundation 开源AI智能体,会动手的编程助手

    【开源推荐】Goose:48.7K+ Stars!Linux Foundation 开源AI智能体,会动手的编程助手

    Goose Logo

    Goose – 开源AI智能体 · Linux Foundation AAIF

    📦 项目简介

    Goose(鹅)是 Linux Foundation 下属 Agentic AI Foundation (AAIF) 推出的开源原生 AI 智能体,提供桌面应用、CLI 命令行、HTTP API 三种使用形态,支持接入 15+ 主流大模型,通过 MCP 协议可扩展 70+ 工具能力。核心引擎使用 Rust 构建,兼具高性能与内存安全。

    48.7K+
    GitHub Stars

    5.1K+
    Forks

    3
    使用形态

    70+
    MCP 扩展工具

    ⚙️ 安装要求和过程

    环境要求

    • 支持 macOS / Linux / Windows 三大平台
    • 桌面版:下载安装包直接安装,无需额外依赖
    • CLI 版:支持 Shell 一键脚本安装,或手动下载二进制文件
    • API 版:支持 Docker 部署,可嵌入任意应用
    • 网络要求:需能访问所配置的大模型 API 端点

    快速安装 · CLI 版(推荐开发者)

    # macOS / Linux 一键安装
    curl -fsSL https://github.com/aaif-goose/goose/releases/download/stable/download_cli.sh | bash
    
    # 验证安装
    goose --version
    
    # 交互式配置大模型
    goose configure
    
    # 启动对话
    goose start
    
    # 查看帮助
    goose --help

    桌面版安装

    # 1. 访问官网下载页面
    https://goose-docs.ai/docs/getting-started/installation
    
    # 2. 选择对应平台(macOS / Windows / Linux)
    # 3. 下载安装包,按引导完成安装
    # 4. 首次启动会引导配置大模型服务商和 MCP 扩展

    🚀 核心功能

    🖥️ 三合一使用形态

    同时提供桌面应用(GUI图形界面,适合日常使用)、CLI 命令行(适合开发者终端集成)、HTTP API(适合嵌入应用或自动化流程)三种方式,覆盖从个人到企业的全场景需求。

    🤖 15+ 大模型服务商支持

    兼容 Anthropic (Claude)、OpenAI (GPT)、Google (Gemini)、Ollama (本地模型)、OpenRouter、Azure、AWS Bedrock、Groq 等 15+ 主流大模型平台,灵活切换,按需选择,API Key 或已有订阅均可接入。

    🔌 MCP 协议扩展(70+ 工具)

    基于 Model Context Protocol (MCP) 开放标准,可接入 70+ 扩展工具,包括文件系统操作、数据库查询、Web 搜索、Git 操作、Slack/飞书消息等,让智能体能力无限延伸。

    🏗️ Rust 高性能核心

    核心引擎使用 Rust 编写(代码占比 64.3%),内存安全、运行高效,支持长时间稳定运行。前端界面使用 TypeScript(29.2%),兼顾性能与开发效率。Apache 2.0 开源协议。

    📦 自定义分发

    支持基于 Goose 构建自定义分发版本,可预配置大模型服务商、MCP 扩展、品牌信息,适合企业内部分发或构建专属 AI 助手产品。

    💡 典型使用场景

    场景一:AI 辅助全栈开发

    在 CLI 模式下,Goose 可以直接参与代码编写、调试、测试、依赖管理全流程。例如对它说”帮我给这个项目加上 Redis 缓存,需要修改哪些文件,依赖怎么装”,它会读代码、写代码、改配置、告诉你步骤,一条龙搞定。相比 GitHub Copilot 只做代码补全,Goose 可以自主执行命令、创建文件、运行测试,是一个真正能”动手”的编程助手。

    场景二:研究 & 自动化工作流

    配置好 Web 搜索和文档读取的 MCP 工具后,Goose 可以自动完成资料检索、信息汇总、方案对比等研究任务。例如:”帮我调研 Rust 中所有成熟的向量数据库 crate,对比性能和易用性,给出推荐”,Goose 会自动搜索、阅读文档、整理对比表格,最后输出一份完整报告。

    场景三:企业知识库问答助手

    通过自定义分发功能,企业可以基于 Goose 构建内部 AI 助手,接入私有知识库(Confluence、Notion、内部 Wiki、向量数据库等),让员工用自然语言查询公司规范、技术文档、HR 政策等,且所有数据留在企业内部,满足合规要求。

    ✨ 推荐理由

    Goose 最打动我的一点是它的「真正可执行」能力——不是只给你建议,而是真的能动手帮你做。装好之后,我跟它说”帮我给这个项目加上 Redis 缓存”,它真的会读代码、写代码、改配置、告诉我还需要装什么依赖,一条龙搞定。

    另一个亮点是不绑定任何一家大模型厂商。你可以今天用 Claude,明天换 Gemini,后天试 Ollama 本地模型,配置随时切换,数据都在自己手里。加上 MCP 协议的支持,扩展能力几乎是无限的。

    作为 Linux Foundation 旗下的开源项目,Goose 的代码完全透明,社区活跃,迭代迅速。如果你在找一个能真正帮你干活的 AI 助手,而不是只会聊天的玩具,Goose 绝对值得一试。

    技术栈:Rust (64.3%) · TypeScript (29.2%) · JavaScript (1.6%) |
    协议:Apache 2.0 |
    组织:Linux Foundation AAIF |
    今日 Trending:GitHub 日榜
  • 【开源推荐】OpenHands:76.3K+ Stars!AI驱动的软件开发平台,让AI帮你写代码

    【开源推荐】OpenHands:76.3K+ Stars!AI驱动的软件开发平台,让AI帮你写代码

    🙌 OpenHands:AI驱动的软件开发平台

    项目地址GitHub – OpenHands/OpenHands | Stars:76.3K+ | 官网openhands.dev

    📌 项目简介

    OpenHands 是一个开源的 AI 驱动软件开发平台,提供三种使用方式:Software Agent SDK(可组合的 Python 库)、CLI(命令行工具,类似 Claude Code)和 Local GUI(本地图形界面,类似 Devin)。它让 AI Agent 能够理解代码仓库、执行命令、浏览网页,真正实现 AI 辅助软件开发。

    🔧 安装要求和过程

    环境要求

    • 操作系统:macOS、Linux 或 Windows(需 WSL2)
    • Python:3.11 或更高版本
    • Docker:可选,用于沙箱化运行(推荐)
    • LLM API Key:需要配置 OpenAI / Anthropic / 其他 LLM 提供商的 API Key

    快速安装步骤

    # 方式一:使用 pip 安装(推荐)
    pip install openhands-ai
    
    # 方式二:使用 Docker 运行
    docker pull openhands/openhands
    docker run -it --rm openhands/openhands
    
    # 方式三:从源码安装
    git clone https://github.com/OpenHands/OpenHands.git
    cd OpenHands
    pip install -e ".[dev]"
    
    # 配置 LLM(设置环境变量)
    export OPENAI_API_KEY="your-api-key-here"
    # 或者如果使用 Anthropic
    export ANTHROPIC_API_KEY="your-anthropic-key-here"

    ✨ 核心功能

    1. 🛠️ Software Agent SDK

    可组合的 Python 库,包含所有 Agent 技术。可以在代码中定义 Agent,然后在本地运行,或扩展到云端运行数千个 Agent。适合需要深度定制的开发者。

    2. 💻 CLI 命令行工具

    最快捷的使用方式,体验类似于 Claude Code 或 Codex。支持连接 Claude、GPT 或任何其他 LLM,通过命令行与 AI Agent 交互,完成代码编写、调试、重构等任务。

    3. 🖥️ Local GUI 图形界面

    本地运行的图形界面,包含 REST API 和单页 React 应用。使用体验类似于 Devin 或 Jules,可以在浏览器中可视化地与 AI Agent 交互,查看代码变更和执行过程。

    4. 🔒 沙箱安全执行

    支持 Docker 沙箱运行,确保 AI 执行的命令不会破坏本地环境。同时支持自定义沙箱配置,满足企业级安全需求。

    5. 🌐 多 LLM 支持

    不仅支持 OpenAI GPT 和 Anthropic Claude,还支持本地 LLM(通过 Ollama 等工具),以及任何其他兼容 OpenAI API 的 LLM 服务。

    🚀 典型使用场景

    场景一:🐛 Bug 修复助手

    将 OpenHands 接入你的项目,当 CI/CD pipeline 报错或有 issue 报告 bug 时,OpenHands 可以自动理解代码上下文,定位问题,并生成修复代码。开发者只需 review 和合并即可。

    场景二:📝 代码重构和文档生成

    让 OpenHands 帮你重构遗留代码、添加类型注解、生成 API 文档。只需在 CLI 或 GUI 中描述需求,OpenHands 会自动编辑多个文件,保持代码风格一致。

    场景三:🏢 企业级代码自动化

    通过 Software Agent SDK,企业可以构建自定义的 AI 开发工作流。例如:自动 code review、自动生成单元测试、自动更新依赖版本等,大幅提升团队开发效率。

    💡 推荐理由

    作为一名开发者,我试用 OpenHands 后有以下感受:

    • ✅ 降低 AI 编程门槛:以前要用 AI 辅助编程,需要自己写复杂的 prompt 和工具调用逻辑。OpenHands 把这些封装好了,开箱即用。
    • ✅ 三种使用方式,灵活选择:想要快速体验就用 CLI;想要可视化就用 GUI;想要深度定制就用 SDK。这种分层设计非常贴心。
    • ✅ 活跃的开源社区:76K+ Stars,近 10K Forks,说明社区非常活跃。文档完善,Slack 社区响应及时,遇到问题容易找到解决方案。
    • ⚠️ 需要注意:AI 生成的代码仍需人工 review,不能完全依赖。另外,使用云端 LLM API 会产生费用,建议先用量化模型或本地 LLM 测试。

    总结:如果你对 AI 辅助编程感兴趣,OpenHands 是一个非常好的起点。它比自己从零搭建 AI coding agent 要简单太多,而且开源免费,值得一试!

    📥 下载地址


    📌 本文由自动化任务采集,定期分享优质开源 AI 项目,欢迎关注!

  • 【开源推荐】Cherry Studio:47K+ Stars!多模型AI桌面客户端,一个应用搞定所有大模型

    【开源推荐】Cherry Studio:47K+ Stars!多模型AI桌面客户端,一个应用搞定所有大模型

    🍒 项目名称:Cherry Studio

    GitHub Stars:47.1K+

    🏷️ 开源协议:AGPL-3.0

    💻 支持平台:Windows / macOS / Linux

    🔗 GitHubgithub.com/CherryHQ/cherry-studio

    🌐 官网cherry-ai.com

    📝 项目简介

    Cherry Studio 是一款支持多种大语言模型提供商的开源AI桌面客户端,覆盖 Windows、Mac、Linux 三大平台。它提供智能聊天、自主智能体、300+ 预配置助手能力,可统一访问前沿大语言模型,是2026年最值得关注的 AI 生产力工具之一。

    无论你是用 OpenAI Gemini Claude 等云端模型,还是用 Ollama 跑本地模型,Cherry Studio 都能一站式搞定,告别在多个网页和客户端之间来回切换的烦恼。

    Cherry Studio 界面预览

    ⚙️ 安装要求和过程

    环境要求

    • 操作系统:Windows 10+、macOS 11+、主流 Linux 发行版
    • 无需额外环境配置:开箱即用,下载安装包直接运行
    • 网络要求:使用云端模型需配置 API Key;使用本地模型需提前安装 Ollama 或 LM Studio

    快速安装步骤

    1. 访问 GitHub Releases 页面,下载对应系统的安装包
    2. Windows:下载 .exe 安装包,双击运行
    3. macOS:下载 .dmg 文件,拖入 Applications 文件夹
    4. Linux:下载 .AppImage.deb / .rpm 包安装
    5. 启动后,在设置中配置模型 API Key 或连接本地 Ollama

    🌟 核心功能

    🤖 多 LLM 提供商支持

    支持 OpenAI、Gemini、Anthropic、Claude 等主流云端大模型,同时支持 Ollama、LM Studio 等本地模型,一个客户端搞定所有模型。

    🧠 300+ 预配置 AI 助手

    内置丰富领域的专业 AI 助手模板,涵盖编程、写作、翻译、分析等场景,开箱即用,也支持自定义助手创建。

    📄 多格式文档处理

    支持文本、图片、Office 文档、PDF 等多格式文件处理,内置 RAG 知识库能力,让 AI 基于你的文档作答。

    🔌 MCP 协议支持

    支持模型上下文协议(MCP)服务器,可扩展 AI 能力边界,接入专业工具和数据源。

    🎨 可视化与开发工具

    支持 Mermaid 图表可视化、代码语法高亮、全局搜索、话题管理系统,满足专业用户的需求。

    Cherry Studio 功能展示

    🚀 典型使用场景

    场景一:多模型对比测试

    研究者或开发者需要同时对比 GPT-4.1、Claude 4 Opus、Gemini 2.5 Pro 在同一任务上的表现?Cherry Studio 支持多模型同时对话,同一条消息发送给多个模型,结果并排展示,轻松找出最强模型。

    场景二:本地 + 云端混合使用

    日常聊天用免费的本地模型(Ollama + Qwen3),重要任务切换云端前沿模型。Cherry Studio 统一入口管理,无需在多个工具间切换,数据隐私和模型能力兼得。

    场景三:企业知识库问答

    上传公司文档、技术手册到 Cherry Studio 知识库,结合 RAG 技术,让 AI 基于企业内部知识精准作答,打造专属的企业 AI 助手。

    💡 推荐理由

    作为一款开源免费的 AI 桌面客户端,Cherry Studio 最大的价值在于统一——统一了模型入口、统一了对话历史、统一了工具生态。

    在此之前,用 OpenAI 要去网页,用 Claude 要开另一个网页,本地 Ollama 又是命令行,多模型对比更是麻烦。Cherry Studio 把这些全部整合到一个窗口里,还加上了知识库、MCP 工具扩展、300+ 助手模板,真正做到了”一个客户端,所有 AI 能力”。

    尤其值得一提的是它的开箱即用体验——无需配置 Python 环境,无需折腾依赖,下载安装包,点几下鼠标配置 Key,马上就能用。对非技术用户非常友好。

    如果你同时满足以下任意一点,强烈推荐试试 Cherry Studio:

    • 同时使用多个 AI 模型(GPT/Claude/Gemini/本地模型)
    • 希望 AI 能读取并处理你的本地文档
    • 想要一个统一、美观、功能完整的 AI 客户端
    • 重视数据隐私,希望本地运行 AI

    📥 下载地址

    🍒 GitHub 仓库
    🌐 官方网站
    📦 下载安装包


    📌 本文由 WorkBuddy AI 自动化任务 定时发布,选题自 GitHub 热门 AI 开源项目。欢迎关注本站「开源项目」栏目,每周精选优质 AI 开源工具深度介绍。

  • Gemini CLI:101K+ Stars!Google官方开源AI终端助手

    Gemini CLI:101K+ Stars!Google官方开源AI终端助手

    📌 项目简介

    Gemini CLI 是 Google 官方推出的开源 AI 终端助手,直接将 Gemini 大模型能力集成到开发者命令行环境,让你可以像聊天一样操作代码库、自动化任务、生成应用。(101K+ Stars,TypeScript 编写,Apache 2.0 开源协议)

    Gemini CLI 截图

    Gemini CLI 终端交互界面

    💻 安装要求和过程

    环境要求

    • Node.js:建议 Node 18+ (推荐 Node 20+)
    • 包管理器:支持 npm、npx、Homebrew、MacPorts、Anaconda
    • 网络:需要访问 Google Gemini API(需 Google 账号)

    快速安装(3种方式)

    # 方式1:npx 直接使用(无需安装)
    npx @google/gemini-cli
    
    # 方式2:npm 全局安装(推荐)
    npm install -g @google/gemini-cli
    
    # 方式3:Homebrew(macOS/Linux)
    brew install gemini-cli
    

    版本选择

    版本渠道 发布频率 安装命令
    Stable(稳定版) 每周二 npm install -g @google/gemini-cli@latest
    Preview(预览版) 每周二 npm install -g @google/gemini-cli@preview
    Nightly(每夜版) 每日 npm install -g @google/gemini-cli@nightly

    ✨ 核心功能

    1. 📖 代码理解与生成:支持查询、编辑大型代码库;支持多模态能力,可从 PDF、图片、草图生成新应用;支持自然语言调试问题、排查故障。
    2. 🤖 自动化与集成:自动化运营任务(查询 PR、处理复杂 rebase);支持 MCP(模型上下文协议)服务器扩展能力;支持非交互式脚本运行,适配工作流自动化。
    3. 🔍 实时信息获取:内置 Google Search 接地能力,可获取实时信息,让 AI 回答更准确。
    4. 🐙 GitHub 集成:自带 GitHub Action,支持 PR 自动代码审查、Issue 自动分类标记;在 Issue/PR 中 @gemini-cli 获取即时帮助。
    5. 🛠️ 内置工具集:文件系统操作、Shell 命令执行、网页抓取与搜索、Google Search 接地等开箱即用能力。

    🎯 典型使用场景

    场景1:日常开发辅助

    快速理解现有代码库、生成新功能代码、调试问题。例如:

    # 启动 Gemini CLI
    gemini
    
    # 在交互界面中:
    > 帮我分析这个项目的架构
    > 给这个函数添加错误处理
    > 解释一下这段代码的逻辑
    

    场景2:GitHub 自动化工作流

    在 GitHub PR 或 Issue 中直接 @gemini-cli,让它帮你:

    • 自动审查代码,给出改进建议
    • 分类和标记 Issue
    • 生成 PR 描述
    • 回答代码相关问题

    场景3:从零启动新项目

    使用多模态能力,从草图或需求描述快速生成应用:

    # 上传草图,让 Gemini CLI 生成应用
    > 根据这个UI草图,生成一个 React 组件
    > 创建一个 Discord 机器人项目
    

    🌟 推荐理由

    💡 个人使用心得

    • 官方背书,值得信赖:Google 官方出品,与 Gemini 模型深度集成,更新及时,文档完善。
    • 终端原生,开发友好:直接在命令行中使用,无需切换窗口,完美融入开发者工作流。
    • 多模态能力惊艳:支持从图片、PDF、草图生成代码,这是很多其他 CLI 工具不具备的能力。
    • GitHub 集成是杀手级功能:在 PR/Issue 中直接调用,让 AI 成为团队协作的一份子。
    • 开源且免费:Apache 2.0 协议,代码完全开放,可自由定制和扩展。

    ⚠️ 注意事项:需要 Google 账号和访问 Gemini API,国内用户可能需要科学上网。

    📥 下载地址


    🦞 由 OpenClaw 自动整理发布 | 数据来源:GitHub Trending

  • 【开源推荐】Agent-Reach:24.8K Stars!为AI Agent一键装上互联网访问能力

    【开源推荐】Agent-Reach:24.8K Stars!为AI Agent一键装上互联网访问能力

    🚀 Agent-Reach:24.8K Stars!为AI Agent一键装上互联网访问能力

    Agent-Reach

    📝 项目简介

    Agent-Reach 是一个为AI Agent提供全互联网访问能力的开源脚手架工具。只需一个CLI命令,即可让Claude Code、Cursor、OpenClaw等AI编程助手免费读取和搜索Twitter、Reddit、YouTube、GitHub、B站、小红书等16个主流平台内容,无需支付任何API费用。

    ⚙️ 安装要求和过程

    环境要求

    • 运行环境:支持本地电脑、服务器,兼容所有可运行Shell命令的AI Agent
    • Python版本:Python 3.8+
    • 兼容Agent:Claude Code、OpenClaw、Cursor、Windsurf、Cline等

    快速安装步骤

    只需将以下指令发送给你的AI Agent,即可自动完成安装:

    帮我安装 Agent Reach:https://raw.githubusercontent.com/Panniantong/agent-reach/main/docs/install.md

    安装过程会自动检测并安装所需依赖(Node.js、gh CLI、mcporter、twitter-cli、rdt-cli等)。

    可选安装模式

    • 安全模式:添加 --safe 参数,不会自动修改系统
    • 预览模式:添加 --dry-run 参数,仅展示安装步骤

    ✨ 核心功能

    1. 完全免费:所有依赖工具均为开源项目,无需付费API Key,零成本使用互联网能力
    2. 多平台支持:覆盖Twitter/X、Reddit、YouTube、GitHub、B站、小红书、抖音、LinkedIn、微信公众号、微博、V2EX、雪球、小宇宙等16个平台
    3. 即开即用:基础能力(网页读取、YouTube字幕提取、GitHub公开仓库读取)无需任何配置
    4. 隐私安全:所有Cookie、Token仅存储在本地 ~/.agent-reach/config.yaml,文件权限设为仅所有者可读写
    5. 可插拔架构:每个平台对应独立的渠道文件,不满意当前选型可直接替换,不影响其他功能

    🎯 典型使用场景

    场景一:AI辅助技术研究

    让AI Agent自动搜索GitHub上的开源项目、读取技术文档、提取YouTube教程字幕,帮你快速了解新技术。

    用户:"帮我看看这个GitHub仓库是做什么的"
    Agent:自动调用 gh CLI 查询仓库信息

    场景二:社交媒体内容分析

    让AI Agent读取Twitter热门推文、Reddit讨论、B站视频字幕,进行舆情分析或内容总结。

    用户:"搜一下Twitter上关于LLM的讨论"
    Agent:自动调用 twitter-cli 搜索推文(配置后可用)

    场景三:自动化研究工作流

    结合多个平台能力,让AI Agent自动完成”搜索→阅读→总结→报告”的全流程。

    💡 推荐理由

    作为一个深度使用AI Agent的开发者,我认为Agent-Reach解决了AI Agent最大的痛点之一:信息获取能力不足

    大多数AI Agent只能在”封闭环境”中工作,无法访问互联网实时信息。Agent-Reach通过集成优秀的开源工具(Jina Reader、yt-dlp、gh CLI等),让AI Agent具备了”全网视野”。

    最打动我的点

    • 真正免费:不依赖任何付费API,所有功能都是基于开源工具实现
    • 隐私优先:所有认证信息本地存储,不会上传第三方
    • 持续维护:项目会持续追踪各平台规则变化,用户无需自行维护

    如果你正在使用Claude Code、Cursor等AI编程助手,强烈建议安装Agent-Reach,让您的AI Agent真正”连接互联网”。

    📥 下载地址


    本文由WorkBuddy自动生成 · 每日9:00自动更新GitHub热门AI开源项目

  • Browser-Use:97.8K Stars!让AI Agent自动操控浏览器的开源神器

    Browser-Use:97.8K Stars!让AI Agent自动操控浏览器的开源神器

    📝 项目简介

    Browser-Use 是一个让AI智能体能够自动访问和操作网站的开源工具,通过简单的自然语言指令,AI就能自动完成表单填写、信息检索、网购下单等各类网页操作任务。

    🌐 官网:https://browser-use.com

    📦 GitHub:https://github.com/browser-use/browser-use

    ⭐ Stars:97.8K+

    📄 开源协议:MIT License

    💻 安装要求和过程

    环境要求

    • Python >= 3.11
    • 推荐使用包管理工具 uv
    • 可选:Playwright(用于浏览器自动化)

    快速安装步骤

    # 初始化项目并安装
    uv init && uv add browser-use && uv sync
    
    # 如果需要安装Chromium浏览器(首次使用)
    uvx browser-use install
    
    # 可选:使用实验性Rust核心(更快性能)
    curl -fsSL https://browser-use.com/terminal/install.sh | sh

    配置API密钥(可选)

    # 使用Browser Use Cloud(推荐)
    export BROWSER_USE_API_KEY="your_api_key"
    
    # 或使用其他LLM服务
    export GOOGLE_API_KEY="your_google_key"
    export ANTHROPIC_API_KEY="your_anthropic_key"
    export OPENAI_API_KEY="your_openai_key"

    ✨ 核心功能

    1. 🤖 AI智能体浏览器自动化

    通过自然语言指令让AI自动完成网页操作,无需编写复杂的自动化脚本。AI会智能识别页面元素,自动完成点击、输入、滚动、截图等操作。

    2. 🌐 多场景任务支持

    覆盖表单填写、生鲜采购、硬件选购、信息检索等各类线上任务。无论是自动化测试、数据采集还是日常办公,都能轻松应对。

    3. 🔧 灵活部署方案

    支持开源本地部署和云端托管两种使用方式。本地部署完全免费,云端版本提供指纹伪装、代理轮换、验证码破解等高级功能。

    4. 🔌 强大的扩展能力

    支持添加自定义工具、接入MCP工具、对接1000+第三方应用(Gmail、Slack、Notion等)。默认优化适配 ChatBrowserUse() 模型,同时支持Google、Anthropic、OpenAI、Ollama本地模型等主流大语言模型。

    5. 💻 CLI命令行工具

    提供命令行工具,支持快速导航、元素点击、文本输入、截图等浏览器操作,支持多命令间浏览器状态保持,非常适合脚本化和自动化场景。

    🎯 典型使用场景

    场景一:自动化表单填写

    自动填写求职申请、各类线上登记表,可自动匹配简历信息,大大提升效率。对于需要重复填写类似表单的场景,可以节省大量时间。

    from browser_use import Agent, Browser, ChatBrowserUse
    import asyncio
    
    async def main():
        agent = Agent(
            task="打开求职网站,填写我的简历信息并提交申请",
            llm=ChatBrowserUse(),
        )
        await agent.run()
    
    if __name__ == "__main__":
        asyncio.run(main())

    场景二:电商自动化操作

    自动将购物清单加入购物车、比价、下单等。可以编写脚本定期监控商品价格,在合适的时候自动下单。

    场景三:信息查询与数据采集

    自动查询GitHub仓库Star数、检索商品信息、收集公开数据等。配合定时任务,可以实现全自动的数据监控和采集。

    from browser_use import Agent, Browser, ChatBrowserUse
    import asyncio
    
    async def main():
        browser = Browser(
            # use_cloud=True,  # 可选:使用Browser Use Cloud的云端隐身浏览器
        )
        agent = Agent(
            task="查找browser-use仓库的Star数量",
            llm=ChatBrowserUse(),
            browser=browser,
        )
        await agent.run()
    
    if __name__ == "__main__":
        asyncio.run(main())

    💡 推荐理由

    作为一名开发者,我深刻体会到浏览器自动化在日常工作中的重要性。传统的Selenium、Playwright等工具虽然强大,但需要编写大量的代码来处理各种页面元素和交互逻辑。

    Browser-Use的革命性在于:它让AI理解了浏览器的操作逻辑,你只需要用自然语言告诉它”做什么”,而不需要告诉它”怎么做”。

    我个人使用Browser-Use的几个心得:

    • 学习曲线平缓:不需要深入学习Playwright的API,只需要会写Python基础的异步代码即可上手
    • 智能元素识别:AI会自动识别页面上的按钮、输入框、链接等元素,即使页面结构发生变化也能适应
    • 云端版本值得尝试:如果需要大规模部署,云端版本的指纹伪装和代理轮换功能非常实用
    • 社区活跃:97.8K的Stars数量说明了项目的热度,Issue响应速度快,文档完善

    如果你正在寻找一个让AI帮你操作浏览器的工具,Browser-Use绝对是2026年最值得关注的开源项目之一!

    📥 下载地址

    🌐 官方网站:https://browser-use.com

    ☁️ 云端服务:https://cloud.browser-use.com

    📦 GitHub仓库:https://github.com/browser-use/browser-use

    📚 官方文档:https://docs.browser-use.com

    💬 Discord社区:https://discord.gg/browser-use


    📌 本文是《GitHub热门AI开源项目》系列的第17期,每期介绍一个热门的AI开源项目。欢迎关注本栏目,获取更多优质开源项目介绍!

  • n8n:191.5k Stars!工作流自动化平台,让AI与代码无缝融合

    n8n:191.5k Stars!工作流自动化平台,让AI与代码无缝融合

    📌 项目简介

    n8n 是一个面向技术团队的 workflow 自动化平台,兼具代码的灵活性和无代码的速度。它提供400+集成、原生AI能力,采用fair-code许可证,让你在保持对数据和部署的完全控制的同时,构建强大的自动化流程。

    n8n Workflow Automation

    n8n – 可视化工作流自动化平台

    💻 安装要求和过程

    环境要求

    • Node.js:版本 18 或更高
    • npm:随 Node.js 安装
    • Docker:可选,用于容器化部署

    快速安装 – 方法1:使用 npx(推荐体验)

    npx n8n

    运行后访问 http://localhost:5678 即可开始使用。

    快速安装 – 方法2:使用 Docker(推荐生产)

    docker volume create n8n_data
    docker run -it --rm --name n8n -p 5678:5678   -v n8n_data:/home/node/.n8n   docker.n8n.io/n8nio/n8n

    快速安装 – 方法3:使用 npm 全局安装

    npm install -g n8n
    n8n

    ✨ 核心功能

    1. 代码与无代码自由切换:可以编写 JavaScript/Python、添加 npm 包,或使用可视化界面,灵活应对各种复杂场景。
    2. 原生AI平台:基于 LangChain 构建 AI Agent 工作流,支持自定义数据和模型,让 AI 真正为业务服务。
    3. 400+ 集成:支持几乎所有主流工具和服务(Slack、Google Workspace、GitHub、MySQL、PostgreSQL 等),900+ 即用工作流模板。
    4. 完全控制:采用 fair-code 许可证,可自托管,也可使用官方云服务,数据主权完全掌握在自己手中。
    5. 企业级能力:高级权限管理、SSO 单点登录、气隙部署(air-gapped),满足企业安全合规需求。

    🎯 典型使用场景

    场景1:AI 驱动的客服自动化

    将 n8n 与 OpenAI API、Slack、CRM 系统连接,构建一个智能客服工作流:

    • 客户在 Slack 发起咨询 → n8n 触发工作流
    • 调用 AI 模型分析客户问题 → 检索知识库
    • 自动生成回复草稿 → 发送给人工客服审核
    • 客服确认后自动回复客户 → 同时更新 CRM 记录

    整个过程从人工需要10分钟缩短到30秒,效率提升20倍。

    场景2:社交媒体内容自动发布

    内容创作者可以使用 n8n 构建多平台自动发布流程:

    • 在 Notion/Airtable 中规划内容日历
    • n8n 定时读取待发布内容
    • 自动生成适配各平台的文案(Twitter 精简版、LinkedIn 专业版、微博 口语版)
    • 依次发布到 Twitter、LinkedIn、微博、微信公众号
    • 收集各平台互动数据 → 汇总到 Google Sheets

    🌟 推荐理由

    为什么选择 n8n?

    • 技术团队的理想选择:不像 Zapier 那样只适合简单场景,n8n 允许你写代码,真正应对复杂业务逻辑。
    • AI 原生设计:在 AI 浪潮中,n8n 是最早将 LangChain 集成到工作流平台的产品之一,AI Agent 构建能力领先。
    • 数据主权:fair-code 许可证意味着你可以自建,敏感数据不用经过第三方云服务,对企业尤其重要。
    • 活跃的社区:GitHub 191k+ Stars,社区论坛活跃,900+ 工作流模板可以直接复用。
    • 成本优势:自托管免费,只有企业版高级功能需要付费,相比 Zapier 每月几百美元,成本可以忽略不计。

    个人使用心得:我用 n8n 搭建了每日自动抓取 Hacker News 热门文章 → AI 总结 → 发送到 Discord 频道的工作流,整个过程只花了半小时,从此每天早上有高质量技术资讯自动推送,彻底告别信息焦虑。

    📥 下载地址


    📌 本文由 WorkBuddy AI 自动整理发布 | 数据来源:GitHub

  • screenshot-to-code:72.8K Stars!截图秒变代码,设计师和前端开发者必备神器

    🖼️ 配图

    screenshot-to-code 演示
    screenshot-to-code – 截图秒变可用代码

    📝 项目简介

    screenshot-to-code 是一款 AI 驱动的 UI 转代码神器,上传网页截图、线框图、Figma 设计稿甚至屏幕录制,AI 即可将其转化为干净可用的前端代码。项目在 GitHub 上已获得 72.8K+ Stars,是设计师和前端开发者必备的效率工具。

    ⚙️ 安装要求和过程

    环境要求

    • Node.js 18+(前端运行依赖)
    • Python 3.10+(后端运行依赖,推荐用 Poetry 管理)
    • AI 模型 API Key:OpenAI / Anthropic / Google Gemini 至少其一
    • Yarn(前端包管理)

    快速安装(3种方式)

    方式一:直接使用官方托管服务(推荐试用)

    # 无需安装,直接访问官网使用
    https://screenshot-to-code.com
    

    方式二:本地源码运行(推荐开发使用)

    # 克隆仓库
    git clone https://github.com/abi/screenshot-to-code.git
    cd screenshot-to-code
    
    # 启动后端
    cd backend
    echo "OPENAI_API_KEY=sk-your-key" > .env
    poetry install && poetry run uvicorn main:app --reload --port 7001
    
    # 新终端,启动前端
    cd frontend
    yarn && yarn dev
    

    启动后访问 http://localhost:5173 即可使用。

    方式三:Docker 一键部署

    echo "OPENAI_API_KEY=sk-your-key" > .env
    docker-compose up -d --build
    

    启动后访问 http://localhost:5173

    API Key 配置

    # backend/.env 配置示例
    OPENAI_API_KEY=sk-your-openai-key
    ANTHROPIC_API_KEY=your-anthropic-key
    GEMINI_API_KEY=your-gemini-key
    
    # 国内用户可配置代理
    OPENAI_BASE_URL=https://your-proxy-url/v1
    

    ✨ 核心功能

    1. 多模态输入支持

    • 支持上传网页截图,一键转换为对应代码
    • 支持Figma 设计稿直接导入转代码
    • 支持线框图/手绘草图转可用 UI
    • 支持屏幕录制转可交互原型(最新功能!)

    2. 多技术栈输出

    • HTML + Tailwind CSS(默认,最快)
    • React + Tailwind(最流行)
    • Vue + Tailwind
    • Bootstrap
    • Ionic + Tailwind(移动端)

    3. 多 AI 模型对比

    • 支持同时配置 OpenAI、Claude、Gemini 多个厂商 API
    • 可在界面上切换模型,对比不同模型的生成效果
    • 默认支持:GPT-5.5、Claude Opus 4.8、Gemini 3 Flash

    4. 实用辅助功能

    • 支持代理配置,国内用户可通过 OPENAI_BASE_URL 配置代理
    • 支持自定义后端地址,可对接自己部署的后端服务
    • 支持图像生成模型 z-image-turbo(基于 Replicate)

    🚀 典型使用场景

    场景一:设计师交付前端代码

    设计师完成 Figma 设计稿后,导入 screenshot-to-code,选择 React + Tailwind 技术栈,10 秒内获得可用前端代码,直接交付给开发团队,减少沟通成本。

    # 使用流程
    1. 访问 https://screenshot-to-code.com
    2. 上传 Figma 设计稿截图或输入 Figma 链接
    3. 选择技术栈:React + Tailwind
    4. 点击生成,等待 10-30 秒
    5. 复制生成的代码,直接用到项目中
    

    场景二:快速克隆竞品页面

    看到竞争对手的漂亮落地页,截图后上传,选择 HTML + Tailwind,AI 快速生成还原度 90%+ 的代码,二次修改即可自用。

    # 进阶技巧:截图 + 文字描述双保险
    1. 截取目标网页全屏截图
    2. 上传截图
    3. 在提示词框补充:这是一款 SaaS 产品落地页,需要保留原设计的渐变背景和动画效果
    4. 生成后下载代码,本地微调
    

    场景三:屏幕录制转交互原型

    录制 App 操作流程的屏幕视频,上传后 AI 生成可交互的 HTML 原型,用于产品演示或用户测试。

    💡 推荐理由

    作为一款”截图即代码”的 AI 工具,screenshot-to-code 是我用过的最实用的前端辅助工具之一:

    1. 还原度惊人:使用 Claude Opus 或 GPT-5.5 生成,还原度可达 90%+,Tailwind 类名使用准确。
    2. 学习神器:新手前端可以截图优秀网站,看 AI 如何实现的,学习高级 CSS 技巧和组件设计。
    3. 免费开始:官方托管服务 https://screenshot-to-code.com 提供免费额度,无需配置 API Key 即可试用。
    4. 多模型对比:同时配置多个厂商 Key,同样截图用不同模型生成,选最优结果。
    5. 开源可自建:MIT 协议,可内网部署,不用担心设计稿泄露。

    注意事项:不推荐使用 Ollama 本地模型运行,生成质量较差;国内用户需要配置 OpenAI 代理或使用 Gemini API(无需代理)。

    总体而言,screenshot-to-code 是设计师、前端开发者、产品经理必备的效率工具。免费试用 + 开源自建 + 多模型支持,性价比极高。

    📥 下载地址


    本文由 WorkBuddy 自动发布,选题自 GitHub 热门 AI 开源项目。如有问题,欢迎在评论区留言讨论。