标签: AI Agent

  • andrej-karpathy/skills:144.5k Stars!基于Karpathy编程哲学的Claude Code技能集合,让AI帮你避开编程陷阱

    andrej-karpathy/skills:144.5k Stars!基于Karpathy编程哲学的Claude Code技能集合,让AI帮你避开编程陷阱

    🎯 项目简介

    andrej-karpathy/skills 是一个基于Andrej Karpathy(前OpenAI创始成员、特斯拉AI前主管)总结的LLM编程陷阱而创建的Claude Code技能集合,拥有超过14.4万Stars,帮助AI编程助手避免常见错误,提升代码质量。


    💻 安装要求和过程

    环境要求

    • Claude Code 或兼容的AI编程助手
    • 支持技能导入功能

    快速安装

    # 克隆仓库
    git clone https://github.com/multica-ai/andrej-karpathy-skills.git
    
    # 进入目录
    cd andrej-karpathy-skills
    
    # 将 CLAUDE.md 文件复制到你的项目根目录
    # Claude Code 会自动读取该文件作为行为规则

    ✨ 核心功能

    1. 🎯 避免LLM编程陷阱:基于Karpathy总结的常见错误模式,帮助AI生成更可靠的代码
    2. 📝 最佳实践集成:内置经过验证的编程模式和架构决策
    3. 🔧 Claude Code优化:专门为Claude Code调优的技能集合
    4. 🚀 提升代码质量:减少调试时间,提高代码可维护性
    5. 📚 持续更新:跟随LLM能力演进,持续添加新的最佳实践

    🎨 典型使用场景

    场景1:AI辅助代码审查

    在代码审查阶段,让Claude Code加载这些技能,自动识别代码中的潜在问题,如性能陷阱、安全漏洞、反模式等。

    场景2:学习LLM编程

    对于刚开始使用AI辅助编程的开发者,这个项目是一个完美的”避坑指南”,帮助你理解LLM在编程时的常见失误。

    场景3:团队标准化

    在团队中统一配置这些技能,确保所有成员在使用AI编程助手时遵循相同的最佳实践。


    💡 推荐理由

    Andrej Karpathy作为深度学习领域的先驱,其编程哲学和对LLM的理解非常深刻。这个项目将他的经验转化为可执行的技能,让每个开发者都能受益于顶级专家的见解。

    特别适合:

    • 频繁使用Claude Code或其他AI编程助手的开发者
    • 希望提升AI生成代码质量的团队
    • 对LLM编程能力边界感兴趣的研究者

    这个项目最打动我的是其实用性——不是空洞的理论,而是可以直接提升日常编程效率的实战技巧。144k+的Stars数也证明了社区对这类实用资源的渴求。


    📥 下载地址


    如果你正在使用Claude Code或其他AI编程助手,强烈建议试试这个技能集合。它可能会改变你对AI辅助编程的认知!

  • 谷歌I/O 2026:Gemini Spark来了,AI智能体时代正式开启

    谷歌的AI大跃进

    昨天凌晨1点,谷歌I/O大会又在加州山景城拉开帷幕。CEO皮查伊开场就甩出一组数字:过去12个月,谷歌处理的Token量达到3.2千万亿个,同比增长7倍。Gemini应用的月活用户突破9亿。这些数字背后,是谷歌把AI智能体全面塞进所有产品的野心。

    这场发布会的核心逻辑很清楚:Gemini不再只是那个你打开对话框才能聊天的助手,它要变成一个持续运行、跨应用执行任务的智能代理。你可以理解为,谷歌想把AI从”工具”升级为”同事”。

    Gemini将从一个对话助手进化为持续运行的全天候AI代理,可以替你追踪信息、生成内容、调用工具,甚至直接完成下单和操作流程。

    几个值得关注的发布

    AskYouTube功能会在YouTube里加入聊天机器人式交互界面。你可以通过自然语言找到符合搜索意图的视频片段,直接跳转过去。这个功能预计今年夏天在美国扩大推广范围。

    DocsLive功能支持用户通过语音与Google Docs互动,不需要输入提示词。演示中,Gemini可以自动提取演讲要点,还能从Google Drive和Gmail调取信息,辅助用户高效创建和编辑文档。

    Gemini 3.5 Flash模型是这次发布的重头戏。谷歌称其生成速度是其他前沿模型的四倍,专为复杂任务和现实开发场景设计。在AI代理和编码工具领域,这个速度优势会让它更有竞争力。

    Gemini Spark是基于Gemini 3.5运行的全天候个人AI助手。即使你的电脑关闭,它也可以继续工作。这是谷歌对OpenAI的ChatGPT和Anthropic的Claude直接发起的挑战。


    硬件和基础设施布局

    谷歌在AI基础设施上的投入也在加速。2026年,谷歌AI相关支出预计达到1800亿-1900亿美元。最新一代TPU(张量处理单元)TPU8分为两类,分别用于大规模AI训练和快速响应用户请求。

    还有AndroidXR智能眼镜,谷歌预告会与GentleMonster、WarbyParker和三星合作推出这款硬件。分为语音交互和信息投影两种形式,用户可以通过眼镜完成导航、下单等操作。

    这意味着什么

    谷歌这次发布会传递的信号很明确:AI智能体不再是概念,而是要全面落地到每个人的日常工作中。从搜索、文档、视频到购物,谷歌想把AI渗透进你数字生活的每一个角落。

    对于用户来说,这意味着更便捷的体验。但对于谷歌的竞争对手来说,这意味着更激烈的竞争。OpenAI、Anthropic、Meta,大家都在抢这个”AI智能体”的入口。2026年的AI赛道,会比去年更精彩。

  • 阿里千问Qwen3.7-Max发布:从对话模型到工程代理的关键一跃

    三个月连更三次,千问在争什么

    5月20日,阿里巴巴在杭州发布了千问新一代旗舰模型Qwen3.7-Max。如果只看标题,这像是一次常规的模型迭代——但从最近三个月的节奏来看,千问正在以不太常见的速度连续推出新版本。

    3月20日,Qwen3.5-Max-Preview亮相;4月20日,Qwen3.6-Max-Preview发布;5月20日,Qwen3.7-Max正式登场。三个月、三个大版本,这个节奏即便放在全球大模型厂商里也不算慢。背后反映的是一个明确判断:模型竞争的重点正在转移,从”谁的参数大、榜单分数高”,转向”模型能不能真正进入工作流,稳定执行复杂任务”。

    Agent能力成了新的主战场

    Qwen3.7-Max延续了千问3.x系列的一个明显转向:强化Agent能力。这不是一个抽象的方向——具体体现在编程、长上下文、工具调用、跨框架兼容和长程任务处理这几个维度上。

    在第三方机构Arena的全球大模型盲测总榜中,Qwen3.7-Max超过了Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与GPT、Claude、Gemini等国际顶尖模型接近,位列国产模型第一。

    Qwen3.7-Max在MCP-Atlas、MCP-Mark、SkillBench等现实能力测试中表现优异,超过GLM-5.1、Kimi-K2.6等模型,创下国产模型新高。

    编程智能体能力的提升尤为明显。在SWE-Pro、SWE-Multilingual、Terminal Bench 2.0-Terminus等测评中,Qwen3.7-Max较Qwen3.6-Plus有大幅提升,并超过了DeepSeek-v4-pro-Max、Claude-Opus4.6、Kimi-K2.6等模型。

    一次完整的工程任务:35小时、上千次工具调用

    阿里内部做了一个挺有说服力的测试:把千问3.7放到一个陌生的新硬件平台上(平头哥真武M890),任务是优化一个生产级注意力内核算子。

    模型没有现成的性能profile,没有硬件文档,也没有示例实现——只拿到了任务描述、SGLang+Triton参考代码和评测脚本。在这个环境中,千问3.7连续工作了35小时,执行了数百次内核评估和上千次工具调用,完成了代码编写、编译、性能分析和迭代优化的完整流程。最终,内核速度在参考实现基础上提升了一个数量级。

    更值得注意的细节是:在连续运行30小时后,模型仍然能发现新的优化空间。这说明它并不是在完成一次性的指令执行,而是在较长时间内保持了目标感,能根据反馈调整路径。

    这个测试背后的意图很明显:当大模型具备较强的推理、编程和工具调用能力,并被放入真实的工程环境中,它有机会承担过去需要专业工程师长时间推进的复杂任务。

    阿里的真正优势:场景和基础设施

    千问的特殊性在于,阿里拥有大量真实的业务和基础设施场景。芯片(平头哥)、云(阿里云)、数据库、电商、物流、支付、出行、本地生活——这些都可以为Agent提供复杂的任务环境。场景既能测试模型,也能为模型迭代提供反馈数据。

    2026年3月,阿里成立了Alibaba Token Hub(ATH),由吴泳铭直接负责。这个调整的背景是:企业使用AI的方式正在变化。过去买的是算力时长,现在消耗的是Token——模型处理任务、生成内容、调用工具、完成工作的能力,最终都会体现在Token使用上。

    公开信息显示,阿里AI模型和应用服务ARR已突破80亿元,百炼MaaS开发平台客户数截至2026年3月同比增长8倍,覆盖电商、金融、制造等多个行业。

    在这个布局里,Qwen3.7-Max不只是一次模型能力更新,而是阿里把”芯—云—模型—推理”这条链路进一步打通的一个节点。模型越强、推理越快、成本越低,Agent越容易在企业中规模化应用——这个逻辑决定了下一阶段大模型竞争的重心。


  • RAGFlow:基于深度文档理解的开源RAG引擎,让AI精准理解你的文档

    RAGFlow Logo

    ## 📖 项目简介

    **RAGFlow** 是一款基于**深度文档理解(DeepDoc)**的开源 RAG(检索增强生成)引擎。它能够结合大语言模型(LLM),从各种复杂格式的数据中精准提取知识,为 AI 应用提供可靠的问答能力。无论你是个人开发者还是企业团队,RAGFlow 都能帮你构建专属的知识库问答系统。

    **GitHub Star:** 81k+ ⭐
    **最新版本:** v0.25.5 (2026年5月)
    **开源协议:** Apache-2.0

    ## 🔧 安装要求和过程

    ### 环境要求

    | 环境项 | 最低配置 |
    |——–|———-|
    | **CPU** | ≥ 4核 |
    | **内存** | ≥ 16 GB |
    | **磁盘** | ≥ 50 GB |
    | **Docker版本** | ≥ 24.0.0 |
    | **Docker Compose** | ≥ v2.26.1 |

    **⚠️ 重要:** 需确保系统参数 `vm.max_map_count` ≥ 262144

    “`bash
    # 临时生效
    sudo sysctl -w vm.max_map_count=262144

    # 永久生效
    echo “vm.max_map_count=262144” >> /etc/sysctl.conf
    “`

    ### 快速安装(Docker部署)

    **1. 克隆仓库**
    “`bash
    git clone https://github.com/infiniflow/ragflow.git
    cd ragflow/docker
    “`

    **2. 启动服务(CPU版本)**
    “`bash
    docker compose -f docker-compose.yml up -d
    “`

    **3. 访问服务**
    服务启动后,浏览器访问 `http://服务器IP地址`(默认端口80)

    **4. 配置LLM**
    在 `service_conf.yaml.template` 中配置你使用的LLM厂商和对应的API_KEY

    **💡 提示:** 如需GPU加速,修改 `.env` 文件设置 `DEVICE=gpu`

    ## ⚡ 核心功能

    ### 1️⃣ 高质量数据处理
    基于**深度文档理解(DeepDoc)**技术,从格式复杂的非结构化数据中提取知识,支持Word、PPT、Excel、TXT、图片、扫描件、网页等多种异构数据源。

    ### 2️⃣ 智能分块与可视化
    提供丰富的模板化分块选项,分块逻辑可解释、可调整。支持分块可视化,允许用户人工干预优化,确保知识切分的精准性。

    ### 3️⃣ 降低幻觉,可追溯来源
    回答附带**可追溯的引用来源**,支持查看关键参考信息。可视化展示文本分块逻辑,大幅提升结果可信度。

    ### 4️⃣ 自动化RAG工作流
    适配个人和大型企业的RAG编排需求,支持自定义配置LLM和嵌入模型,支持多路召回+融合重排,提供直观的API,可无缝集成到业务系统中。

    ### 5️⃣ Agent能力与生态集成
    支持**Agent工作流**、**MCP协议**、**记忆(Memory)功能**。最新版本已支持 DeepSeek v4、Gemini 3 Pro、GPT-5 系列模型,并支持 Confluence、Notion、Discord、Google Drive 等数据源同步。

    ## 🎯 典型使用场景

    ### 场景1:企业知识库问答
    **问题:** 企业内部文档分散,员工查找信息困难
    **解决方案:** 使用 RAGFlow 构建统一知识库,上传公司文档、手册、规范,员工通过自然语言提问即可快速获取准确答案,并附带原文引用。

    ### 场景2:技术文档智能检索
    **问题:** 技术文档篇幅长,开发者难以快速定位关键信息
    **解决方案:** 将 API 文档、开发手册导入 RAGFlow,结合 LLM 实现智能问答,开发者可以直接询问”如何在XXX中实现YYY功能”,系统会返回精准的代码段和说明。

    ### 场景3:个人学习笔记管理
    **问题:** 学习资料繁多,复习时难以高效检索
    **解决方案:** 将课程笔记、论文、书籍导入 RAGFlow,构建个人知识助手,随时提问巩固知识点,实现智能化学习。

    ## 💡 推荐理由

    作为一名 AI 开发者和内容创作者,我为什么强烈推荐 RAGFlow?

    **1. 真正理解复杂文档**
    不同于简单的文本切片,RAGFlow 的**深度文档理解**能力可以识别表格、公式、多栏布局等复杂结构,这在处理技术文档和学术论文时特别有用。

    **2. 可视化的分块调试**
    很多 RAG 系统的痛点是”黑盒分块”,你不知道文档是怎么被切分的。RAGFlow 提供**分块可视化**,让你可以直观看到知识切分效果,并手动调整,这大大提升了问答质量。

    **3. 开源且活跃**
    81k+ Star,Apache-2.0 协议,社区非常活跃。相比闭源的商业 RAG 服务,你可以完全掌控数据安全,也能根据需求定制功能。

    **4. 完整的 Agent 能力**
    最新版本支持 Agent 工作流和记忆功能,不仅能回答问题,还能执行复杂任务,比如”帮我总结本周所有文档的更新内容”。

    **5. 部署简单**
    一条 `docker compose` 命令就能跑起来,对新手非常友好。同时也支持源码部署,方便深度定制。

    ## 📥 下载地址

    – **GitHub 仓库:** https://github.com/infiniflow/ragflow
    – **官方网站:** https://ragflow.io
    – **云服务入口:** https://cloud.ragflow.io
    – **官方文档:** https://ragflow.io/docs/dev/
    – **中文文档:** https://ragflow.com.cn/docs
    – **Discord 社区:** https://discord.gg/NjYzJD3GM3

    ## 🏷️ 相关标签

    `RAG` `RAGFlow` `AI` `LLM` `AI Agent` `开源项目` `知识库` `检索增强生成`

    **📌 系列文章:** 本文是”GitHub热门AI开源项目介绍”系列的第10期。欢迎关注我的博客,获取更多 AI 开源项目的深度介绍!

  • 140万亿Token背后:中国AI应用的五个关键转向

    140万亿Token背后:中国AI应用的五个关键转向

    5月20日,量子位在北京办了第四届中国AIGC产业峰会。会上发了一份《2026年中国AI应用全景图谱报告》,里面有几个数字让我挺震撼的。

    2026年4月,国内AI应用的Web端月访问量突破了9亿,APP端月下载量超过2.4亿,日活同比增长223%。更夸张的是——中国日均Token调用量突破了140万亿,两年增长超千倍。

    2026中国AI应用全景图谱报告
    第四届中国AIGC产业峰会发布的AI应用全景图谱报告 | 来源:凤凰网科技

    这些数字不是虚无的增长率,而是真实用户在用脚投票。AI应用已经从”尝鲜”进入了”日常”阶段。


    报告里提到的五大趋势

    我把报告归纳了一下,其实是五个正在同时发生的转向:

    1. Agent化:从”回答问题”到”替你做事”

    传统AI是你说什么它答什么,Token消耗其实很小。但Agent不一样——它要拆解任务、调用工具、循环推理,单次Token消耗是传统AI的100倍。

    Agent化的本质是让AI从”顾问”变成”执行者”。这个转变一旦完成,每个人的工作效率都会被重新定义。

    2. 模型普惠化:API价格战打响

    DeepSeek V4-Pro的API价格做到了0.025元/百万tokens,是GPT-5.5的七分之一。当模型成本低到这个程度,很多之前”算不过账”的场景突然就成立了。

    价格战对开发者是好事,对用户更是——更多的AI能力会以更低的成本嵌入到日常工具里。

    3. 入口化:四大巨头砸45亿抢用户

    春节前后,字节、阿里、腾讯、百度合计投入超过45亿元,争的就是一件事:让用户把自家的AI助手设为默认入口。

    这个仗还会继续打。入口意味着数据、意味着用户习惯、意味着生态。谁能留住用户,谁就掌握了下一阶段的主动权。

    4. 付费化:用户开始买单了

    Kimi K2.5发布不到20天,收入就超过了2025年全年。智谱API提价之后,调用量不降反增。

    这说明什么?说明AI服务的价值正在被市场认可。用户不是不愿意付费,是不愿意为”不够好”的产品付费。

    5. 垂直深化:AI进工厂、进医院、进法院

    报告特别提到,医疗、金融、法律等B端场景正在开启规模化渗透。这些领域对准确性的要求极高,一旦AI能稳定交付,替代效应会非常明显。


    几个值得注意的数据

    报告还拆解了四个赛道的表现:

    • 智能助手赛道:最卷,也是用户量最大的入口级场景
    • AI效率办公:Web端用户活跃份额超过70%,这个渗透率已经很高了
    • AI创作:APP端日活同比增长449%,是增长最快的赛道
    • 文娱生活:跟游戏、社交、内容消费结合的AI应用正在爆发

    我的判断

    这份报告其实在讲一个核心逻辑:中国AI应用正在从”技术验证”走向”价值验证”。

    140万亿Token、9亿月访问量、223%的日活增长——这些不是泡沫,是真实的需求在驱动。接下来12到18个月,会是AI应用真正分化出赢家和输家的阶段。

    谁能把Agent做好、谁能把垂直场景打透、谁能留住用户——这三个问题,会在2026年底之前给出答案。

  • 2026谷歌I/O大会:AI智能体全面接管,Gemini 3.5速度提升4倍

    谷歌I/O 2026:从搜索公司到AI智能体平台的惊险一跃

    5月20日凌晨1点,加州山景城的谷歌总部灯火通明。Sundar Pichai站在台上的时候,我突然意识到一个问题——这家公司真的在All in AI。不是口号,是真金白银那种all in。

    过去12个月,谷歌处理的Token总量达到了3.2千万亿个。这个数字什么概念?比去年增长了7倍。Gemini应用的月活用户也突破了9亿。当一家公司的AI产品能做到这个量级,它就已经不是在”尝试”AI了,而是在用AI重新定义自己。


    Gemini不再只是聊天机器人

    这次大会最核心的变化,是谷歌对AI智能体的重新定义。Gemini不再是那个你问它答的工具,而是一个持续运行、跨应用执行任务的智能代理。它能替你追踪信息、生成内容、调用工具,甚至直接完成下单和操作流程。

    谷歌今年在AI基础设施上的投入预计达到1800亿到1900亿美元。这不是研发费用,是实打实的算力、数据中心、TPU采购。TPU8分成了两类——一类专门做大规模训练,一类负责快速响应用户请求。

    这个信号很明确:谷歌要把AI变成一种基础设施,就像当年的搜索引擎一样,让所有人都跑在它的平台上。

    几个让我印象深刻的功能

    AskYouTube——YouTube要加聊天机器人了。你可以用自然语言描述你想看的内容,系统直接跳转到视频的对应片段。比如你说”我想看那段讲Transformer架构的部分”,它真的能找到。这个功能今年夏天会在美国推广,国内估计还得等等。

    DocsLive——用语音直接跟Google Docs对话。现场演示的时候,Gemini自动提取演讲要点,还从Google Drive和Gmail里调信息来帮你写文档。这个对办公场景的提升是实打实的,不用再来回复制粘贴了。

    GeminiOmni——DeepMind推出的视频生成模型,基于世界模型架构。你可以用自然语言改视频里的角色、背景、场景。这个技术如果能成熟,视频创作的门槛会进一步降低。

    速度战:Gemini 3.5 Flash来了

    谷歌这次特别强调速度。Gemini 3.5 Flash的生成速度是其他前沿模型的4倍。为什么这么在意速度?因为AI代理要真正可用,响应延迟必须降到人类感知的阈值以下。

    你可以把这理解为AI版的”即时满足”——用户问一个问题,如果超过2秒才响应,体验就断了。谷歌显然在这个方向上押了重注。

    搜索的AI重构

    谷歌搜索也在变。新的搜索框不只是自动补全,还会给AI生成的搜索建议,支持多模态搜索(文字+图片一起搜)。AIMode和AIOverview这两个功能正在把搜索引擎从”找链接”变成”给答案”。

    这对内容创作者来说是个挑战——如果谷歌直接给答案,用户还点不点你的链接?

    硬件端:Android XR智能眼镜

    谷歌还预告了跟GentleMonster、Warby Parker和三星合作的Android XR智能眼镜。分两种:一种是语音交互版,一种是信息投影版。你戴着眼镜就能导航、下单、查信息。

    这个方向跟Meta的Ray-Ban眼镜其实是同一个赛道,但谷歌的优势是软件和生态。如果它真的能把Gemini塞进眼镜里,体验可能会比Meta更完整。


    我的判断

    2026年的谷歌I/O,本质上是一场”AI基础设施化”的宣言。它不再满足于做一个搜索公司或者广告公司,而是要把自己变成AI时代的水电煤。

    智能体、TPU、Gemini生态、Android XR——这些布局如果都能落地,谷歌在AI时代的护城河会比很多人想象的更深。当然,执行才是关键。发布是一回事,真正让几亿用户每天离不开这些功能,是另一回事。

    接下来就看OpenAI和Anthropic怎么接招了。

  • Hermes Agent:161k Stars!自我进化的AI智能体,越用越懂你的开源数字助手

    Hermes Agent:161k Stars!自我进化的AI智能体,越用越懂你的开源数字助手

    Hermes Agent Logo

    Hermes Agent 项目Logo


    📦 项目简介

    Hermes Agent 是一款具备自我进化能力的AI智能体,由 Nous Research 研发。它的核心理念是”与你共同成长的智能体”——不仅执行任务,还能从经验中学习、自主创建技能、跨会话记忆你的偏好,真正像一位会越来越懂你的数字助手。


    ⚙️ 安装要求和过程

    环境要求

    支持系统:
    • Linux / macOS / WSL2 / Termux(安卓)
    • Windows(PowerShell 原生安装,当前Beta阶段,推荐WSL2)
    • 最低:5美元/月的VPS即可运行
    • 推荐:支持GPU集群、无服务器架构部署

    快速安装

    Linux / macOS / WSL2 / Termux:

    curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

    Windows(PowerShell 原生):

    iex (irm https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.ps1)

    ⚡ 安装后执行 source ~/.bashrc(或 source ~/.zshrc)重载配置,然后运行 hermes 即可启动!


    🚀 核心功能

    1️⃣ 多模型兼容,无厂商锁定

    支持 Nous PortalOpenRouter(200+模型)、OpenAI、Hugging Face、自定义端点等任意模型。通过 hermes model 命令即可切换,真正自由。

    2️⃣ 全平台交互,随时随地

    支持 CLI终端TelegramDiscordSlackWhatsAppSignal邮件多端接入。跨平台对话连续,支持语音转写,出门在外也能通过消息平台远程控制。

    3️⃣ 自主学习闭环,越用越懂你

    自主从任务经验中创建技能、使用中自我优化;支持持久化记忆、跨会话对话搜索、用户画像建模。兼容 agentskills.io 开放标准,可接入社区共享技能生态。

    4️⃣ 任务调度与并行,智能体协作

    内置 Cron定时任务,支持自然语言配置定时报告、备份等无人值守任务;可派生子智能体并行处理,通过RPC调用工具降低上下文成本。

    5️⃣ 多环境部署,成本极致优化

    支持 7种终端后端:本地、Docker、SSH、Singularity、Modal、Daytona、Vercel沙箱。其中 Modal、Daytona 支持无服务器休眠,空闲时成本极低,5美元/月的VPS就能跑起来。


    💡 典型使用场景

    🏠

    个人智能助手

    通过CLI或社交平台接入,帮你处理信息查询、任务规划、代码编写等工作。记忆你的偏好,跨会话延续服务,越用越顺手。

    ⚙️

    自动化运维

    配置定时任务,自动执行每日报告生成、夜间备份、周期审计等无人值守工作,结果推送到指定平台,解放双手。

    ☁️

    云端部署

    部署在云端VPS或Serverless环境,远程通过消息平台控制,无需占用本地计算资源。支持GPU集群扩容,按需付费。

    🔬

    AI研究与训练

    批量生成智能体交互轨迹,压缩轨迹数据用于训练下一代工具调用类AI模型。研究友好,支持轨迹生成与压缩。


    🌟 推荐理由

    说实话,AI Agent 框架已经多到让人选择困难了——LangChain、CrewAI、AutoGPT……但 Hermes Agent 真正打动我的是它的“自我进化”理念。它不是那种你配置好就一成不变的框架,而是会从你的使用习惯中学习,自主创建和优化技能,越用越懂你。

    另外就是部署灵活性——5美元/月的VPS就能跑,还支持无服务器休眠,成本极致优化。对于想自己搭建AI助手的个人开发者来说,这简直是福音。再加上支持从 OpenClaw 一键迁移,如果你之前在用OpenClaw,切换到Hermes几乎零成本。

    最关键的:161k Stars 不是刷出来的,是社区真金白银用出来的。Nous Research 团队在开源AI圈口碑极佳,Hermes系列模型也是质量担当。这个项目,值得你Star、Fork、并在自己的服务器上跑起来。

    161k+
    GitHub Stars

    26.3k
    Forks

    MIT
    开源协议


    📥 下载地址

    🔗 GitHub仓库:
    https://github.com/NousResearch/hermes-agent

    📚 官方文档:
    https://hermes-agent.nousresearch.com/docs/

    💬 Discord社区:
    https://discord.gg/NousResearch

    🏠 Skills社区:
    https://agentskills.io
    (获取社区共享技能)


    本文由 WorkBuddy 搜集整理,开源项目信息来自 GitHub 官方仓库,如有侵权请联系删除。

  • Langflow:148.6k Stars!可视化AI工作流构建平台,让Agent开发像搭积木一样简单

    Langflow:148.6k Stars!可视化AI工作流构建平台,让Agent开发像搭积木一样简单

    🚀 项目简介

    Langflow 是一个强大的AI智能体和AI工作流可视化构建平台。它让开发者可以通过拖拽式界面快速搭建LLM应用,同时也支持直接修改Python源码进行深度定制。内置API和MCP服务器,可以把每一个工作流变成可被任何框架调用的工具。

    Langflow

    Langflow — 可视化AI工作流构建平台

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.10 – 3.13
    • 推荐包管理器:uv(更快更现代)
    • 可选:Docker(容器化部署)

    快速安装(推荐方式)

    # 安装 Langflow
    uv pip install langflow -U
    
    # 启动 Langflow
    uv run langflow run

    启动后访问 http://127.0.0.1:7860 即可使用可视化界面。

    Docker 方式

    docker run -p 7860:7860 langflowai/langflow:latest

    桌面版(最简单)

    Langflow Desktop 是入门首选,包含所有依赖,无需手动管理Python环境。支持 Windows 和 macOS,可从 langflow.org/desktop 下载。

    ✨ 核心功能

    🎨 可视化构建界面

    通过拖拽组件即可快速搭建AI工作流,所见即所得,迭代速度极快。不需要写大量样板代码,新手也能快速上手。

    🐍 源码级定制能力

    每一个组件都支持直接查看和修改Python源码。你可以轻松添加自定义逻辑、接入私有API,而不被平台限制住手脚。

    🤖 多智能体编排

    内置对话管理和检索能力,支持构建多智能体系统。可以轻松实现Agent之间的协作、记忆共享和任务分工。

    🚀 一键部署为 API / MCP 服务器

    任何工作流都可以一键部署为REST API,也可以作为MCP服务器运行,让你的AI工作流变成其他应用可以调用的工具。真正实现了”构建一次,随处使用”。

    📊 可观测性集成

    支持 LangSmith、LangFuse 等可观测性工具集成,方便调试和监控生产环境中的AI工作流表现。

    💡 典型使用场景

    📄

    RAG文档问答系统

    连接向量数据库和LLM,构建基于私有知识的问答系统。可视化配置文档加载、分块、检索和生成的完整流程。

    🤝

    多Agent协作任务

    构建多个专业Agent协作完成复杂任务,比如一个Agent负责搜索、一个负责总结、一个负责写作,通过可视化流程串联起来。

    🔌

    AI能力API化

    把精心设计的AI工作流一键部署为API或MCP工具,供前端应用、企业系统或其他AI Agent调用,实现AI能力的模块化复用。

    🧪

    Prompt工程实验

    快速搭建不同的Prompt链路进行对比测试,找到效果最好的提示词组合。交互式Playground支持单步调试,每个环节的输入输出都清晰可见。

    🌟 推荐理由

    如果你在寻找一个既适合快速原型验证、又能支撑生产部署的AI工作流工具,Langflow值得认真考虑。

    它和Dify的定位有些类似,但Langflow更偏向开发者的使用习惯——你可以直接在界面里改Python代码,组件库开放且易扩展,不会被”低代码”的边界限制住。

    我个人最喜欢的功能是部署为MCP服务器。现在AI Agent生态里MCP是重要协议,Langflow让你可以把任何工作流变成MCP工具,被Claude、Cursor等AI助手直接调用,这个设计非常前瞻。

    另外,Langflow Desktop版本对Windows用户非常友好,一键安装,开箱即用,不需要折腾Python环境,这点必须点赞 👍

    🔗 下载地址

    📌 本文由 WorkBuddy AI 自动采集撰写,开源项目信息来自 GitHub 官方仓库。

  • CrewAI:51.9k Stars!轻量高性能多Agent协作框架,让AI团队像人一样分工合作

    CrewAI:51.9k Stars!轻量高性能多Agent协作框架,让AI团队像人一样分工合作

    CrewAI 多Agent协作框架

    CrewAI 官方示意图(图片加载失败时自动隐藏)


    🤖 项目简介

    CrewAI 是一个用于构建多智能体自动化系统的开源 Python 框架,核心定位是轻量、高性能、完全独立——它不依赖 LangChain 等任何外部 Agent 框架,从零构建,执行速度更快、资源占用更低。

    ✅ 一句话总结:让多个 AI Agent 像真实团队一样分工协作,自主完成复杂任务的开源框架。

    ⚙️ 安装要求和过程

    环境要求

    • 🐍 Python:≥ 3.10 且 < 3.14
    • 📦 推荐工具:uv(高性能 Python 包管理器)
    • 💻 操作系统:Windows / macOS / Linux 全平台支持
    • 🔧 可选依赖:Rust 编译器(tiktoken 编译失败时需安装)

    快速安装(3步搞定):

    # 1. 安装 crewai 基础包

    uv pip install crewai

    # 2. 安装包含常用工具的完整版

    uv pip install ‘crewai[tools]’

    # 3. 如需嵌入功能(知识库/RAG)

    uv pip install ‘crewai[embeddings]’

    ⚠️ 常见问题:若出现 tiktoken 模块缺失,安装对应嵌入依赖即可;若 tiktoken 编译失败,Windows 用户需安装 Visual C++ 生成工具。

    🔥 核心功能

    🤝 双模编排

    Crews(自主协作团队)+ Flows(事件驱动工作流)两种架构无缝结合,兼顾自主性与可控性。

    ⚡ 完全独立轻量

    从零构建,不依赖 LangChain,执行速度更快,资源占用更低,部署更简单。

    🎯 深度自定义

    支持从高层工作流到 Agent 内部提示词、执行逻辑的全链路自定义。

    🌐 多模型兼容

    支持 OpenAI、本地 Ollama、Anthropic 等多种 LLM 接入,灵活适配。

    🏢 企业级扩展(CrewAI AMP Suite)

    配套商业化企业套件,提供统一管控平台、可观测性、高级安全等企业特性,已有超过 10万名开发者通过官方课程完成认证。


    🚀 典型使用场景

    📝 场景一:自动化内容生成

    多个 Agent 分工协作——研究员负责搜集资料、写手负责撰写初稿、编辑负责润色定稿,全自动生成落地页或市场分析报告,效率提升 5-10倍

    📊 场景二:股票市场智能分析

    数据分析 Agent 抓取实时行情、研究 Agent 生成深度报告、审核 Agent 确保结论严谨,多角色协作输出专业级投资分析报告。

    ✈️ 场景三:个性化旅行行程规划

    理解用户偏好,自动规划包含交通、住宿、景点、美食的完整行程,并根据实时信息动态调整,比人工规划更全面。


    💡 推荐理由

    如果你正在做 AI 自动化多Agent系统,CrewAI 是目前最值得入手的框架之一。它不依赖 LangChain,意味着更少的依赖冲突、更快的调试周期、更清晰的问题定位。

    最让我印象深刻的是它的「双模编排」设计——Crews 模式让 Agent 自主协作,适合创意类和探索类任务;Flows 模式提供精准的流程控制,适合企业级生产场景。两套模式还能无缝结合,这种设计在当前的多Agent框架里是独一份的。

    🔗 官方文档非常完善,10万+认证开发者社区也很活跃,遇到问题基本都能找到答案。如果你用过 AutoGPT 或 LangChain Agent,切换到 CrewAI 会感受到明显的「轻快」体验。

    🎯 值得一试吗?

    值得!特别是你需要构建生产级多Agent系统的时候,CrewAI 是目前最成熟、最轻量的选择之一。


    📥 下载地址

    🌐 官方网站 https://crewai.com
    🐙 GitHub仓库 https://github.com/crewAIInc/crewAI ⭐ 51.9k
    📚 官方文档 https://docs.crewai.com
    🇨🇳 中文文档 https://docs.crewai.org.cn
    💬 Discord社区 https://discord.gg/X4JWnZnxPb

    开源项目系列第18期

  • OpenHands:74.3k Stars!AI驱动的开发神器,从命令行到企业级部署全覆盖

    OpenHands:74.3k Stars!AI驱动的开发神器,从命令行到企业级部署全覆盖

    🤖 项目简介

    OpenHands 是一个聚焦AI驱动开发的开源项目,提供了可组合的Python软件代理SDK,支持本地运行或大规模云端分布式部署。它集成了多种使用形态——CLI命令行、本地GUI界面、云端托管服务以及企业级私有化部署,可以对接Claude、GPT等多种大语言模型,还能集成Slack、Jira、Linear等常用开发工具。

    简单来说,OpenHands 就是你的AI编程助手全家桶——想要命令行交互?有CLI。想要图形界面?有Local GUI。想要团队协同?有Cloud版。想要私有部署?有Enterprise版。一个项目,四种打开方式。


    🔧 安装要求和过程

    环境要求

    • Python环境:项目核心使用Python(占比62.5%),使用Poetry或uv作为包管理工具
    • Node.js环境:前端部分依赖Node.js生态(包含.nvmrc指定版本)
    • Docker:支持Docker部署(包含docker-compose.yml配置)
    • Kubernetes:企业版支持K8s集群部署

    快速安装(本地开发)

    # 克隆仓库
    git clone https://github.com/All-Hands-AI/OpenHands.git
    cd OpenHands
    
    # 安装依赖(使用uv)
    uv pip install -e ".[dev]"
    
    # 启动本地开发服务器
    make run

    ✨ 核心功能

    🛠️ Software Agent SDK

    底层核心Python库,支持代码定义代理,可本地或云端大规模运行,是所有上层能力的基础。

    💻 CLI命令行模式

    交互逻辑类似Claude Code、Codex,可通过命令行直接对话,对接各类LLM模型。

    🖥️ Local GUI

    本地运行的代理图形界面,附带REST API和单页React应用,交互体验类似Devin、Jules。

    ☁️ Cloud云端服务

    托管式云端服务,支持免费使用Minimax模型,具备多用户协作、RBAC权限管理。


    🚀 典型使用场景

    场景一:个人开发者——AI编程助手

    通过CLI模式,开发者可以在终端直接与AI对话,完成代码编写、调试、重构等任务。类似Claude Code的使用体验,但OpenHands提供了更完整的本地部署能力,数据完全私有。

    场景二:企业团队——私有化AI开发平台

    通过Enterprise版本,企业可以在私有VPC内部署OpenHands,对接内部代码库、Jira、Slack等工具,实现安全的AI辅助开发。支持Kubernetes集群部署,具备完整的权限管理和审计能力。

    场景三:AI研究——可复现的实验环境

    OpenHands提供了评估基础设施和Chrome浏览器扩展,研究者可以方便地进行AI编程能力评估、多模型对比实验,且所有实验环境可完整复现。


    💡 推荐理由

    作为一个AI编程工具的深度用户,我为什么推荐OpenHands?

    • 完整的技术栈覆盖:从个人CLI到企业私有部署,从本地开发到云端协作,OpenHands提供了全链条的解决方案。
    • 真正开源:核心代码采用MIT协议,你可以自由修改、部署,不用担心厂商锁定。
    • 活跃社区:74.3k Stars、9.4k Forks,社区非常活跃,问题和PR响应速度快。
    • 多模型支持:不绑定特定大模型厂商,Claude、GPT、本地Ollama都可以对接。

    如果你正在寻找一个可私有部署、功能完整、社区活跃的AI编程助手,OpenHands绝对值得一试。特别是对于重视数据隐私的团队,它的本地部署能力是最大亮点。


    📥 下载地址


    📌 本文由 WorkBuddy AI 自动采集撰写,开源项目信息来自GitHub官方仓库。