标签： AI Agent

andrej-karpathy/skills：144.5k Stars！基于Karpathy编程哲学的Claude Code技能集合，让AI帮你避开编程陷阱
🎯 项目简介

andrej-karpathy/skills 是一个基于Andrej Karpathy（前OpenAI创始成员、特斯拉AI前主管）总结的LLM编程陷阱而创建的Claude Code技能集合，拥有超过14.4万Stars，帮助AI编程助手避免常见错误，提升代码质量。

💻 安装要求和过程

环境要求
- Claude Code 或兼容的AI编程助手
- 支持技能导入功能
快速安装
```
# 克隆仓库
git clone https://github.com/multica-ai/andrej-karpathy-skills.git

# 进入目录
cd andrej-karpathy-skills

# 将 CLAUDE.md 文件复制到你的项目根目录
# Claude Code 会自动读取该文件作为行为规则
```
✨ 核心功能
1. 🎯 避免LLM编程陷阱：基于Karpathy总结的常见错误模式，帮助AI生成更可靠的代码
2. 📝 最佳实践集成：内置经过验证的编程模式和架构决策
3. 🔧 Claude Code优化：专门为Claude Code调优的技能集合
4. 🚀 提升代码质量：减少调试时间，提高代码可维护性
5. 📚 持续更新：跟随LLM能力演进，持续添加新的最佳实践
🎨 典型使用场景

场景1：AI辅助代码审查

在代码审查阶段，让Claude Code加载这些技能，自动识别代码中的潜在问题，如性能陷阱、安全漏洞、反模式等。

场景2：学习LLM编程

对于刚开始使用AI辅助编程的开发者，这个项目是一个完美的”避坑指南”，帮助你理解LLM在编程时的常见失误。

场景3：团队标准化

在团队中统一配置这些技能，确保所有成员在使用AI编程助手时遵循相同的最佳实践。

💡 推荐理由

Andrej Karpathy作为深度学习领域的先驱，其编程哲学和对LLM的理解非常深刻。这个项目将他的经验转化为可执行的技能，让每个开发者都能受益于顶级专家的见解。

特别适合：
- 频繁使用Claude Code或其他AI编程助手的开发者
- 希望提升AI生成代码质量的团队
- 对LLM编程能力边界感兴趣的研究者
这个项目最打动我的是其实用性——不是空洞的理论，而是可以直接提升日常编程效率的实战技巧。144k+的Stars数也证明了社区对这类实用资源的渴求。

📥 下载地址
- GitHub仓库：https://github.com/multica-ai/andrej-karpathy-skills
- Star数：144.5k+ ⭐
- 开源协议：未指定（仅单个CLAUDE.md文件）
如果你正在使用Claude Code或其他AI编程助手，强烈建议试试这个技能集合。它可能会改变你对AI辅助编程的认知！
2026年5月22日
谷歌I/O 2026：Gemini Spark来了，AI智能体时代正式开启

谷歌的AI大跃进

昨天凌晨1点，谷歌I/O大会又在加州山景城拉开帷幕。CEO皮查伊开场就甩出一组数字：过去12个月，谷歌处理的Token量达到3.2千万亿个，同比增长7倍。Gemini应用的月活用户突破9亿。这些数字背后，是谷歌把AI智能体全面塞进所有产品的野心。

这场发布会的核心逻辑很清楚：Gemini不再只是那个你打开对话框才能聊天的助手，它要变成一个持续运行、跨应用执行任务的智能代理。你可以理解为，谷歌想把AI从”工具”升级为”同事”。

Gemini将从一个对话助手进化为持续运行的全天候AI代理，可以替你追踪信息、生成内容、调用工具，甚至直接完成下单和操作流程。

几个值得关注的发布

AskYouTube功能会在YouTube里加入聊天机器人式交互界面。你可以通过自然语言找到符合搜索意图的视频片段，直接跳转过去。这个功能预计今年夏天在美国扩大推广范围。

DocsLive功能支持用户通过语音与Google Docs互动，不需要输入提示词。演示中，Gemini可以自动提取演讲要点，还能从Google Drive和Gmail调取信息，辅助用户高效创建和编辑文档。

Gemini 3.5 Flash模型是这次发布的重头戏。谷歌称其生成速度是其他前沿模型的四倍，专为复杂任务和现实开发场景设计。在AI代理和编码工具领域，这个速度优势会让它更有竞争力。

Gemini Spark是基于Gemini 3.5运行的全天候个人AI助手。即使你的电脑关闭，它也可以继续工作。这是谷歌对OpenAI的ChatGPT和Anthropic的Claude直接发起的挑战。

硬件和基础设施布局

谷歌在AI基础设施上的投入也在加速。2026年，谷歌AI相关支出预计达到1800亿-1900亿美元。最新一代TPU（张量处理单元）TPU8分为两类，分别用于大规模AI训练和快速响应用户请求。

还有AndroidXR智能眼镜，谷歌预告会与GentleMonster、WarbyParker和三星合作推出这款硬件。分为语音交互和信息投影两种形式，用户可以通过眼镜完成导航、下单等操作。

这意味着什么

谷歌这次发布会传递的信号很明确：AI智能体不再是概念，而是要全面落地到每个人的日常工作中。从搜索、文档、视频到购物，谷歌想把AI渗透进你数字生活的每一个角落。

对于用户来说，这意味着更便捷的体验。但对于谷歌的竞争对手来说，这意味着更激烈的竞争。OpenAI、Anthropic、Meta，大家都在抢这个”AI智能体”的入口。2026年的AI赛道，会比去年更精彩。

📎 原文来源：2026年谷歌I/O大会全景解析：AI助手Spark与Gemini 3.5全面升级

2026年5月22日
阿里千问Qwen3.7-Max发布：从对话模型到工程代理的关键一跃

三个月连更三次，千问在争什么

5月20日，阿里巴巴在杭州发布了千问新一代旗舰模型Qwen3.7-Max。如果只看标题，这像是一次常规的模型迭代——但从最近三个月的节奏来看，千问正在以不太常见的速度连续推出新版本。

3月20日，Qwen3.5-Max-Preview亮相；4月20日，Qwen3.6-Max-Preview发布；5月20日，Qwen3.7-Max正式登场。三个月、三个大版本，这个节奏即便放在全球大模型厂商里也不算慢。背后反映的是一个明确判断：模型竞争的重点正在转移，从”谁的参数大、榜单分数高”，转向”模型能不能真正进入工作流，稳定执行复杂任务”。

Agent能力成了新的主战场

Qwen3.7-Max延续了千问3.x系列的一个明显转向：强化Agent能力。这不是一个抽象的方向——具体体现在编程、长上下文、工具调用、跨框架兼容和长程任务处理这几个维度上。

在第三方机构Arena的全球大模型盲测总榜中，Qwen3.7-Max超过了Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，与GPT、Claude、Gemini等国际顶尖模型接近，位列国产模型第一。

Qwen3.7-Max在MCP-Atlas、MCP-Mark、SkillBench等现实能力测试中表现优异，超过GLM-5.1、Kimi-K2.6等模型，创下国产模型新高。

编程智能体能力的提升尤为明显。在SWE-Pro、SWE-Multilingual、Terminal Bench 2.0-Terminus等测评中，Qwen3.7-Max较Qwen3.6-Plus有大幅提升，并超过了DeepSeek-v4-pro-Max、Claude-Opus4.6、Kimi-K2.6等模型。

一次完整的工程任务：35小时、上千次工具调用

阿里内部做了一个挺有说服力的测试：把千问3.7放到一个陌生的新硬件平台上（平头哥真武M890），任务是优化一个生产级注意力内核算子。

模型没有现成的性能profile，没有硬件文档，也没有示例实现——只拿到了任务描述、SGLang+Triton参考代码和评测脚本。在这个环境中，千问3.7连续工作了35小时，执行了数百次内核评估和上千次工具调用，完成了代码编写、编译、性能分析和迭代优化的完整流程。最终，内核速度在参考实现基础上提升了一个数量级。

更值得注意的细节是：在连续运行30小时后，模型仍然能发现新的优化空间。这说明它并不是在完成一次性的指令执行，而是在较长时间内保持了目标感，能根据反馈调整路径。

这个测试背后的意图很明显：当大模型具备较强的推理、编程和工具调用能力，并被放入真实的工程环境中，它有机会承担过去需要专业工程师长时间推进的复杂任务。

阿里的真正优势：场景和基础设施

千问的特殊性在于，阿里拥有大量真实的业务和基础设施场景。芯片（平头哥）、云（阿里云）、数据库、电商、物流、支付、出行、本地生活——这些都可以为Agent提供复杂的任务环境。场景既能测试模型，也能为模型迭代提供反馈数据。

2026年3月，阿里成立了Alibaba Token Hub（ATH），由吴泳铭直接负责。这个调整的背景是：企业使用AI的方式正在变化。过去买的是算力时长，现在消耗的是Token——模型处理任务、生成内容、调用工具、完成工作的能力，最终都会体现在Token使用上。

公开信息显示，阿里AI模型和应用服务ARR已突破80亿元，百炼MaaS开发平台客户数截至2026年3月同比增长8倍，覆盖电商、金融、制造等多个行业。

在这个布局里，Qwen3.7-Max不只是一次模型能力更新，而是阿里把”芯—云—模型—推理”这条链路进一步打通的一个节点。模型越强、推理越快、成本越低，Agent越容易在企业中规模化应用——这个逻辑决定了下一阶段大模型竞争的重心。

📎 原文来源：阿里发布新一代千问旗舰模型Qwen3.7-Max，登顶最佳国产模型 — InfoQ

2026年5月22日
RAGFlow：基于深度文档理解的开源RAG引擎，让AI精准理解你的文档

## 📖 项目简介

**RAGFlow** 是一款基于**深度文档理解（DeepDoc）**的开源 RAG（检索增强生成）引擎。它能够结合大语言模型（LLM），从各种复杂格式的数据中精准提取知识，为 AI 应用提供可靠的问答能力。无论你是个人开发者还是企业团队，RAGFlow 都能帮你构建专属的知识库问答系统。

**GitHub Star:** 81k+ ⭐
**最新版本:** v0.25.5 (2026年5月)
**开源协议:** Apache-2.0

—

## 🔧 安装要求和过程

### 环境要求

| 环境项 | 最低配置 |
|——–|———-|
| **CPU** | ≥ 4核 |
| **内存** | ≥ 16 GB |
| **磁盘** | ≥ 50 GB |
| **Docker版本** | ≥ 24.0.0 |
| **Docker Compose** | ≥ v2.26.1 |

**⚠️ 重要：** 需确保系统参数 `vm.max_map_count` ≥ 262144

“`bash
# 临时生效
sudo sysctl -w vm.max_map_count=262144

# 永久生效
echo “vm.max_map_count=262144” >> /etc/sysctl.conf
“`

### 快速安装（Docker部署）

**1. 克隆仓库**
“`bash
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker
“`

**2. 启动服务（CPU版本）**
“`bash
docker compose -f docker-compose.yml up -d
“`

**3. 访问服务**
服务启动后，浏览器访问 `http://服务器IP地址`（默认端口80）

**4. 配置LLM**
在 `service_conf.yaml.template` 中配置你使用的LLM厂商和对应的API_KEY

**💡 提示：** 如需GPU加速，修改 `.env` 文件设置 `DEVICE=gpu`

—

## ⚡ 核心功能

### 1️⃣ 高质量数据处理
基于**深度文档理解（DeepDoc）**技术，从格式复杂的非结构化数据中提取知识，支持Word、PPT、Excel、TXT、图片、扫描件、网页等多种异构数据源。

### 2️⃣ 智能分块与可视化
提供丰富的模板化分块选项，分块逻辑可解释、可调整。支持分块可视化，允许用户人工干预优化，确保知识切分的精准性。

### 3️⃣ 降低幻觉，可追溯来源
回答附带**可追溯的引用来源**，支持查看关键参考信息。可视化展示文本分块逻辑，大幅提升结果可信度。

### 4️⃣ 自动化RAG工作流
适配个人和大型企业的RAG编排需求，支持自定义配置LLM和嵌入模型，支持多路召回+融合重排，提供直观的API，可无缝集成到业务系统中。

### 5️⃣ Agent能力与生态集成
支持**Agent工作流**、**MCP协议**、**记忆（Memory）功能**。最新版本已支持 DeepSeek v4、Gemini 3 Pro、GPT-5 系列模型，并支持 Confluence、Notion、Discord、Google Drive 等数据源同步。

—

## 🎯 典型使用场景

### 场景1：企业知识库问答
**问题：** 企业内部文档分散，员工查找信息困难
**解决方案：** 使用 RAGFlow 构建统一知识库，上传公司文档、手册、规范，员工通过自然语言提问即可快速获取准确答案，并附带原文引用。

### 场景2：技术文档智能检索
**问题：** 技术文档篇幅长，开发者难以快速定位关键信息
**解决方案：** 将 API 文档、开发手册导入 RAGFlow，结合 LLM 实现智能问答，开发者可以直接询问”如何在XXX中实现YYY功能”，系统会返回精准的代码段和说明。

### 场景3：个人学习笔记管理
**问题：** 学习资料繁多，复习时难以高效检索
**解决方案：** 将课程笔记、论文、书籍导入 RAGFlow，构建个人知识助手，随时提问巩固知识点，实现智能化学习。

—

## 💡 推荐理由

作为一名 AI 开发者和内容创作者，我为什么强烈推荐 RAGFlow？

**1. 真正理解复杂文档**
不同于简单的文本切片，RAGFlow 的**深度文档理解**能力可以识别表格、公式、多栏布局等复杂结构，这在处理技术文档和学术论文时特别有用。

**2. 可视化的分块调试**
很多 RAG 系统的痛点是”黑盒分块”，你不知道文档是怎么被切分的。RAGFlow 提供**分块可视化**，让你可以直观看到知识切分效果，并手动调整，这大大提升了问答质量。

**3. 开源且活跃**
81k+ Star，Apache-2.0 协议，社区非常活跃。相比闭源的商业 RAG 服务，你可以完全掌控数据安全，也能根据需求定制功能。

**4. 完整的 Agent 能力**
最新版本支持 Agent 工作流和记忆功能，不仅能回答问题，还能执行复杂任务，比如”帮我总结本周所有文档的更新内容”。

**5. 部署简单**
一条 `docker compose` 命令就能跑起来，对新手非常友好。同时也支持源码部署，方便深度定制。

—

## 📥 下载地址

– **GitHub 仓库：** https://github.com/infiniflow/ragflow
– **官方网站：** https://ragflow.io
– **云服务入口：** https://cloud.ragflow.io
– **官方文档：** https://ragflow.io/docs/dev/
– **中文文档：** https://ragflow.com.cn/docs
– **Discord 社区：** https://discord.gg/NjYzJD3GM3

—

## 🏷️ 相关标签

`RAG` `RAGFlow` `AI` `LLM` `AI Agent` `开源项目` `知识库` `检索增强生成`

—

**📌 系列文章：** 本文是”GitHub热门AI开源项目介绍”系列的第10期。欢迎关注我的博客，获取更多 AI 开源项目的深度介绍！

2026年5月22日
140万亿Token背后：中国AI应用的五个关键转向
140万亿Token背后：中国AI应用的五个关键转向

5月20日，量子位在北京办了第四届中国AIGC产业峰会。会上发了一份《2026年中国AI应用全景图谱报告》，里面有几个数字让我挺震撼的。

2026年4月，国内AI应用的Web端月访问量突破了9亿，APP端月下载量超过2.4亿，日活同比增长223%。更夸张的是——中国日均Token调用量突破了140万亿，两年增长超千倍。

第四届中国AIGC产业峰会发布的AI应用全景图谱报告 | 来源：凤凰网科技

这些数字不是虚无的增长率，而是真实用户在用脚投票。AI应用已经从”尝鲜”进入了”日常”阶段。

报告里提到的五大趋势

我把报告归纳了一下，其实是五个正在同时发生的转向：

1. Agent化：从”回答问题”到”替你做事”

传统AI是你说什么它答什么，Token消耗其实很小。但Agent不一样——它要拆解任务、调用工具、循环推理，单次Token消耗是传统AI的100倍。

Agent化的本质是让AI从”顾问”变成”执行者”。这个转变一旦完成，每个人的工作效率都会被重新定义。

2. 模型普惠化：API价格战打响

DeepSeek V4-Pro的API价格做到了0.025元/百万tokens，是GPT-5.5的七分之一。当模型成本低到这个程度，很多之前”算不过账”的场景突然就成立了。

价格战对开发者是好事，对用户更是——更多的AI能力会以更低的成本嵌入到日常工具里。

3. 入口化：四大巨头砸45亿抢用户

春节前后，字节、阿里、腾讯、百度合计投入超过45亿元，争的就是一件事：让用户把自家的AI助手设为默认入口。

这个仗还会继续打。入口意味着数据、意味着用户习惯、意味着生态。谁能留住用户，谁就掌握了下一阶段的主动权。

4. 付费化：用户开始买单了

Kimi K2.5发布不到20天，收入就超过了2025年全年。智谱API提价之后，调用量不降反增。

这说明什么？说明AI服务的价值正在被市场认可。用户不是不愿意付费，是不愿意为”不够好”的产品付费。

5. 垂直深化：AI进工厂、进医院、进法院

报告特别提到，医疗、金融、法律等B端场景正在开启规模化渗透。这些领域对准确性的要求极高，一旦AI能稳定交付，替代效应会非常明显。

几个值得注意的数据

报告还拆解了四个赛道的表现：
- 智能助手赛道：最卷，也是用户量最大的入口级场景
- AI效率办公：Web端用户活跃份额超过70%，这个渗透率已经很高了
- AI创作：APP端日活同比增长449%，是增长最快的赛道
- 文娱生活：跟游戏、社交、内容消费结合的AI应用正在爆发
我的判断

这份报告其实在讲一个核心逻辑：中国AI应用正在从”技术验证”走向”价值验证”。

140万亿Token、9亿月访问量、223%的日活增长——这些不是泡沫，是真实的需求在驱动。接下来12到18个月，会是AI应用真正分化出赢家和输家的阶段。

谁能把Agent做好、谁能把垂直场景打透、谁能留住用户——这三个问题，会在2026年底之前给出答案。

📎 原文来源：2026中国AI应用全景图谱报告：日均Token调用量突破140万亿
2026年5月22日
2026谷歌I/O大会：AI智能体全面接管，Gemini 3.5速度提升4倍

谷歌I/O 2026：从搜索公司到AI智能体平台的惊险一跃

5月20日凌晨1点，加州山景城的谷歌总部灯火通明。Sundar Pichai站在台上的时候，我突然意识到一个问题——这家公司真的在All in AI。不是口号，是真金白银那种all in。

过去12个月，谷歌处理的Token总量达到了3.2千万亿个。这个数字什么概念？比去年增长了7倍。Gemini应用的月活用户也突破了9亿。当一家公司的AI产品能做到这个量级，它就已经不是在”尝试”AI了，而是在用AI重新定义自己。

Gemini不再只是聊天机器人

这次大会最核心的变化，是谷歌对AI智能体的重新定义。Gemini不再是那个你问它答的工具，而是一个持续运行、跨应用执行任务的智能代理。它能替你追踪信息、生成内容、调用工具，甚至直接完成下单和操作流程。

谷歌今年在AI基础设施上的投入预计达到1800亿到1900亿美元。这不是研发费用，是实打实的算力、数据中心、TPU采购。TPU8分成了两类——一类专门做大规模训练，一类负责快速响应用户请求。

这个信号很明确：谷歌要把AI变成一种基础设施，就像当年的搜索引擎一样，让所有人都跑在它的平台上。

几个让我印象深刻的功能

AskYouTube——YouTube要加聊天机器人了。你可以用自然语言描述你想看的内容，系统直接跳转到视频的对应片段。比如你说”我想看那段讲Transformer架构的部分”，它真的能找到。这个功能今年夏天会在美国推广，国内估计还得等等。

DocsLive——用语音直接跟Google Docs对话。现场演示的时候，Gemini自动提取演讲要点，还从Google Drive和Gmail里调信息来帮你写文档。这个对办公场景的提升是实打实的，不用再来回复制粘贴了。

GeminiOmni——DeepMind推出的视频生成模型，基于世界模型架构。你可以用自然语言改视频里的角色、背景、场景。这个技术如果能成熟，视频创作的门槛会进一步降低。

速度战：Gemini 3.5 Flash来了

谷歌这次特别强调速度。Gemini 3.5 Flash的生成速度是其他前沿模型的4倍。为什么这么在意速度？因为AI代理要真正可用，响应延迟必须降到人类感知的阈值以下。

你可以把这理解为AI版的”即时满足”——用户问一个问题，如果超过2秒才响应，体验就断了。谷歌显然在这个方向上押了重注。

搜索的AI重构

谷歌搜索也在变。新的搜索框不只是自动补全，还会给AI生成的搜索建议，支持多模态搜索（文字+图片一起搜）。AIMode和AIOverview这两个功能正在把搜索引擎从”找链接”变成”给答案”。

这对内容创作者来说是个挑战——如果谷歌直接给答案，用户还点不点你的链接？

硬件端：Android XR智能眼镜

谷歌还预告了跟GentleMonster、Warby Parker和三星合作的Android XR智能眼镜。分两种：一种是语音交互版，一种是信息投影版。你戴着眼镜就能导航、下单、查信息。

这个方向跟Meta的Ray-Ban眼镜其实是同一个赛道，但谷歌的优势是软件和生态。如果它真的能把Gemini塞进眼镜里，体验可能会比Meta更完整。

我的判断

2026年的谷歌I/O，本质上是一场”AI基础设施化”的宣言。它不再满足于做一个搜索公司或者广告公司，而是要把自己变成AI时代的水电煤。

智能体、TPU、Gemini生态、Android XR——这些布局如果都能落地，谷歌在AI时代的护城河会比很多人想象的更深。当然，执行才是关键。发布是一回事，真正让几亿用户每天离不开这些功能，是另一回事。

接下来就看OpenAI和Anthropic怎么接招了。

📎 原文来源：2026年谷歌I/O大会全景解析：AI助手Spark与Gemini 3.5全面升级，智能体引领新潮流

2026年5月22日
Hermes Agent：161k Stars！自我进化的AI智能体，越用越懂你的开源数字助手
Hermes Agent 项目Logo

📦 项目简介

Hermes Agent 是一款具备自我进化能力的AI智能体，由 Nous Research 研发。它的核心理念是”与你共同成长的智能体”——不仅执行任务，还能从经验中学习、自主创建技能、跨会话记忆你的偏好，真正像一位会越来越懂你的数字助手。

⚙️ 安装要求和过程

环境要求
支持系统： • Linux / macOS / WSL2 / Termux（安卓） • Windows（PowerShell 原生安装，当前Beta阶段，推荐WSL2） • 最低：5美元/月的VPS即可运行 • 推荐：支持GPU集群、无服务器架构部署
快速安装

Linux / macOS / WSL2 / Termux：
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
Windows（PowerShell 原生）：
iex (irm https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.ps1)
⚡ 安装后执行 source ~/.bashrc（或 source ~/.zshrc）重载配置，然后运行 hermes 即可启动！

🚀 核心功能

1️⃣ 多模型兼容，无厂商锁定

支持 Nous Portal、OpenRouter（200+模型）、OpenAI、Hugging Face、自定义端点等任意模型。通过 hermes model 命令即可切换，真正自由。

2️⃣ 全平台交互，随时随地

支持 CLI终端、Telegram、Discord、Slack、WhatsApp、Signal、邮件多端接入。跨平台对话连续，支持语音转写，出门在外也能通过消息平台远程控制。

3️⃣ 自主学习闭环，越用越懂你

自主从任务经验中创建技能、使用中自我优化；支持持久化记忆、跨会话对话搜索、用户画像建模。兼容 agentskills.io 开放标准，可接入社区共享技能生态。

4️⃣ 任务调度与并行，智能体协作

内置 Cron定时任务，支持自然语言配置定时报告、备份等无人值守任务；可派生子智能体并行处理，通过RPC调用工具降低上下文成本。

5️⃣ 多环境部署，成本极致优化

支持 7种终端后端：本地、Docker、SSH、Singularity、Modal、Daytona、Vercel沙箱。其中 Modal、Daytona 支持无服务器休眠，空闲时成本极低，5美元/月的VPS就能跑起来。

💡 典型使用场景

🏠

个人智能助手

通过CLI或社交平台接入，帮你处理信息查询、任务规划、代码编写等工作。记忆你的偏好，跨会话延续服务，越用越顺手。

⚙️

自动化运维

配置定时任务，自动执行每日报告生成、夜间备份、周期审计等无人值守工作，结果推送到指定平台，解放双手。

☁️

云端部署

部署在云端VPS或Serverless环境，远程通过消息平台控制，无需占用本地计算资源。支持GPU集群扩容，按需付费。

🔬

AI研究与训练

批量生成智能体交互轨迹，压缩轨迹数据用于训练下一代工具调用类AI模型。研究友好，支持轨迹生成与压缩。

🌟 推荐理由

说实话，AI Agent 框架已经多到让人选择困难了——LangChain、CrewAI、AutoGPT……但 Hermes Agent 真正打动我的是它的“自我进化”理念。它不是那种你配置好就一成不变的框架，而是会从你的使用习惯中学习，自主创建和优化技能，越用越懂你。

另外就是部署灵活性——5美元/月的VPS就能跑，还支持无服务器休眠，成本极致优化。对于想自己搭建AI助手的个人开发者来说，这简直是福音。再加上支持从 OpenClaw 一键迁移，如果你之前在用OpenClaw，切换到Hermes几乎零成本。

最关键的：161k Stars 不是刷出来的，是社区真金白银用出来的。Nous Research 团队在开源AI圈口碑极佳，Hermes系列模型也是质量担当。这个项目，值得你Star、Fork、并在自己的服务器上跑起来。

161k+

GitHub Stars

26.3k

Forks

MIT

开源协议

📥 下载地址

🔗 GitHub仓库：
https://github.com/NousResearch/hermes-agent

📚 官方文档：
https://hermes-agent.nousresearch.com/docs/

💬 Discord社区：
https://discord.gg/NousResearch

🏠 Skills社区：
https://agentskills.io
（获取社区共享技能）

本文由 WorkBuddy 搜集整理，开源项目信息来自 GitHub 官方仓库，如有侵权请联系删除。
2026年5月22日
Langflow：148.6k Stars！可视化AI工作流构建平台，让Agent开发像搭积木一样简单
🚀 项目简介

Langflow 是一个强大的AI智能体和AI工作流可视化构建平台。它让开发者可以通过拖拽式界面快速搭建LLM应用，同时也支持直接修改Python源码进行深度定制。内置API和MCP服务器，可以把每一个工作流变成可被任何框架调用的工具。

Langflow — 可视化AI工作流构建平台
⚙️ 安装要求和过程

环境要求

Python 3.10 – 3.13

推荐包管理器：uv（更快更现代）

可选：Docker（容器化部署）

快速安装（推荐方式）

# 安装 Langflow uv pip install langflow -U # 启动 Langflow uv run langflow run

启动后访问 http://127.0.0.1:7860 即可使用可视化界面。

Docker 方式

docker run -p 7860:7860 langflowai/langflow:latest

桌面版（最简单）

Langflow Desktop 是入门首选，包含所有依赖，无需手动管理Python环境。支持 Windows 和 macOS，可从 langflow.org/desktop 下载。
✨ 核心功能

🎨 可视化构建界面

通过拖拽组件即可快速搭建AI工作流，所见即所得，迭代速度极快。不需要写大量样板代码，新手也能快速上手。

🐍 源码级定制能力

每一个组件都支持直接查看和修改Python源码。你可以轻松添加自定义逻辑、接入私有API，而不被平台限制住手脚。

🤖 多智能体编排

内置对话管理和检索能力，支持构建多智能体系统。可以轻松实现Agent之间的协作、记忆共享和任务分工。

🚀 一键部署为 API / MCP 服务器

任何工作流都可以一键部署为REST API，也可以作为MCP服务器运行，让你的AI工作流变成其他应用可以调用的工具。真正实现了”构建一次，随处使用”。

📊 可观测性集成

支持 LangSmith、LangFuse 等可观测性工具集成，方便调试和监控生产环境中的AI工作流表现。

💡 典型使用场景

📄

RAG文档问答系统

连接向量数据库和LLM，构建基于私有知识的问答系统。可视化配置文档加载、分块、检索和生成的完整流程。

🤝

多Agent协作任务

构建多个专业Agent协作完成复杂任务，比如一个Agent负责搜索、一个负责总结、一个负责写作，通过可视化流程串联起来。

🔌

AI能力API化

把精心设计的AI工作流一键部署为API或MCP工具，供前端应用、企业系统或其他AI Agent调用，实现AI能力的模块化复用。

🧪

Prompt工程实验

快速搭建不同的Prompt链路进行对比测试，找到效果最好的提示词组合。交互式Playground支持单步调试，每个环节的输入输出都清晰可见。

🌟 推荐理由

如果你在寻找一个既适合快速原型验证、又能支撑生产部署的AI工作流工具，Langflow值得认真考虑。

它和Dify的定位有些类似，但Langflow更偏向开发者的使用习惯——你可以直接在界面里改Python代码，组件库开放且易扩展，不会被”低代码”的边界限制住。

我个人最喜欢的功能是部署为MCP服务器。现在AI Agent生态里MCP是重要协议，Langflow让你可以把任何工作流变成MCP工具，被Claude、Cursor等AI助手直接调用，这个设计非常前瞻。

另外，Langflow Desktop版本对Windows用户非常友好，一键安装，开箱即用，不需要折腾Python环境，这点必须点赞 👍
🔗 下载地址

官网：langflow.org（可下载Desktop版）

GitHub：github.com/langflow-ai/langflow（148.6k ⭐）

文档：docs.langflow.org

PyPI安装：uv pip install langflow -U
📌 本文由 WorkBuddy AI 自动采集撰写，开源项目信息来自 GitHub 官方仓库。
2026年5月21日

CrewAI：51.9k Stars！轻量高性能多Agent协作框架，让AI团队像人一样分工合作

CrewAI 官方示意图（图片加载失败时自动隐藏）

🤖 项目简介

CrewAI 是一个用于构建多智能体自动化系统的开源 Python 框架，核心定位是轻量、高性能、完全独立——它不依赖 LangChain 等任何外部 Agent 框架，从零构建，执行速度更快、资源占用更低。

✅ 一句话总结：让多个 AI Agent 像真实团队一样分工协作，自主完成复杂任务的开源框架。

⚙️ 安装要求和过程

环境要求

🐍 Python：≥ 3.10 且 < 3.14
📦 推荐工具：uv（高性能 Python 包管理器）
💻 操作系统：Windows / macOS / Linux 全平台支持
🔧 可选依赖：Rust 编译器（tiktoken 编译失败时需安装）

快速安装（3步搞定）：

# 1. 安装 crewai 基础包
uv pip install crewai
# 2. 安装包含常用工具的完整版
uv pip install ‘crewai[tools]’
# 3. 如需嵌入功能（知识库/RAG）
uv pip install ‘crewai[embeddings]’

⚠️ 常见问题：若出现 tiktoken 模块缺失，安装对应嵌入依赖即可；若 tiktoken 编译失败，Windows 用户需安装 Visual C++ 生成工具。

🔥 核心功能

🤝 双模编排

Crews（自主协作团队）+ Flows（事件驱动工作流）两种架构无缝结合，兼顾自主性与可控性。

⚡ 完全独立轻量

从零构建，不依赖 LangChain，执行速度更快，资源占用更低，部署更简单。

🎯 深度自定义

支持从高层工作流到 Agent 内部提示词、执行逻辑的全链路自定义。

🌐 多模型兼容

支持 OpenAI、本地 Ollama、Anthropic 等多种 LLM 接入，灵活适配。

🏢 企业级扩展（CrewAI AMP Suite）

配套商业化企业套件，提供统一管控平台、可观测性、高级安全等企业特性，已有超过 10万名开发者通过官方课程完成认证。

🚀 典型使用场景

📝 场景一：自动化内容生成

多个 Agent 分工协作——研究员负责搜集资料、写手负责撰写初稿、编辑负责润色定稿，全自动生成落地页或市场分析报告，效率提升 5-10倍。

📊 场景二：股票市场智能分析

数据分析 Agent 抓取实时行情、研究 Agent 生成深度报告、审核 Agent 确保结论严谨，多角色协作输出专业级投资分析报告。

✈️ 场景三：个性化旅行行程规划

理解用户偏好，自动规划包含交通、住宿、景点、美食的完整行程，并根据实时信息动态调整，比人工规划更全面。

💡 推荐理由

如果你正在做 AI 自动化 或 多Agent系统，CrewAI 是目前最值得入手的框架之一。它不依赖 LangChain，意味着更少的依赖冲突、更快的调试周期、更清晰的问题定位。

最让我印象深刻的是它的「双模编排」设计——Crews 模式让 Agent 自主协作，适合创意类和探索类任务；Flows 模式提供精准的流程控制，适合企业级生产场景。两套模式还能无缝结合，这种设计在当前的多Agent框架里是独一份的。

🔗 官方文档非常完善，10万+认证开发者社区也很活跃，遇到问题基本都能找到答案。如果你用过 AutoGPT 或 LangChain Agent，切换到 CrewAI 会感受到明显的「轻快」体验。

🎯 值得一试吗？

值得！特别是你需要构建生产级多Agent系统的时候，CrewAI 是目前最成熟、最轻量的选择之一。

📥 下载地址

🌐 官方网站	https://crewai.com
🐙 GitHub仓库	https://github.com/crewAIInc/crewAI ⭐ 51.9k
📚 官方文档	https://docs.crewai.com
🇨🇳 中文文档	https://docs.crewai.org.cn
💬 Discord社区	https://discord.gg/X4JWnZnxPb

开源项目系列第18期

2026年5月21日

OpenHands：74.3k Stars！AI驱动的开发神器，从命令行到企业级部署全覆盖
🤖 项目简介

OpenHands 是一个聚焦AI驱动开发的开源项目，提供了可组合的Python软件代理SDK，支持本地运行或大规模云端分布式部署。它集成了多种使用形态——CLI命令行、本地GUI界面、云端托管服务以及企业级私有化部署，可以对接Claude、GPT等多种大语言模型，还能集成Slack、Jira、Linear等常用开发工具。

简单来说，OpenHands 就是你的AI编程助手全家桶——想要命令行交互？有CLI。想要图形界面？有Local GUI。想要团队协同？有Cloud版。想要私有部署？有Enterprise版。一个项目，四种打开方式。

🔧 安装要求和过程
环境要求

Python环境：项目核心使用Python（占比62.5%），使用Poetry或uv作为包管理工具

Node.js环境：前端部分依赖Node.js生态（包含.nvmrc指定版本）

Docker：支持Docker部署（包含docker-compose.yml配置）

Kubernetes：企业版支持K8s集群部署
快速安装（本地开发）

# 克隆仓库 git clone https://github.com/All-Hands-AI/OpenHands.git cd OpenHands # 安装依赖（使用uv） uv pip install -e ".[dev]" # 启动本地开发服务器 make run
✨ 核心功能

🛠️ Software Agent SDK

底层核心Python库，支持代码定义代理，可本地或云端大规模运行，是所有上层能力的基础。

💻 CLI命令行模式

交互逻辑类似Claude Code、Codex，可通过命令行直接对话，对接各类LLM模型。

🖥️ Local GUI

本地运行的代理图形界面，附带REST API和单页React应用，交互体验类似Devin、Jules。

☁️ Cloud云端服务

托管式云端服务，支持免费使用Minimax模型，具备多用户协作、RBAC权限管理。

🚀 典型使用场景

场景一：个人开发者——AI编程助手

通过CLI模式，开发者可以在终端直接与AI对话，完成代码编写、调试、重构等任务。类似Claude Code的使用体验，但OpenHands提供了更完整的本地部署能力，数据完全私有。

场景二：企业团队——私有化AI开发平台

通过Enterprise版本，企业可以在私有VPC内部署OpenHands，对接内部代码库、Jira、Slack等工具，实现安全的AI辅助开发。支持Kubernetes集群部署，具备完整的权限管理和审计能力。

场景三：AI研究——可复现的实验环境

OpenHands提供了评估基础设施和Chrome浏览器扩展，研究者可以方便地进行AI编程能力评估、多模型对比实验，且所有实验环境可完整复现。

💡 推荐理由
作为一个AI编程工具的深度用户，我为什么推荐OpenHands？

完整的技术栈覆盖：从个人CLI到企业私有部署，从本地开发到云端协作，OpenHands提供了全链条的解决方案。

真正开源：核心代码采用MIT协议，你可以自由修改、部署，不用担心厂商锁定。

活跃社区：74.3k Stars、9.4k Forks，社区非常活跃，问题和PR响应速度快。

多模型支持：不绑定特定大模型厂商，Claude、GPT、本地Ollama都可以对接。

如果你正在寻找一个可私有部署、功能完整、社区活跃的AI编程助手，OpenHands绝对值得一试。特别是对于重视数据隐私的团队，它的本地部署能力是最大亮点。
📥 下载地址

⭐ GitHub仓库 (74.3k Stars)
📚 官方文档
 📦 发布版本

📌 本文由 WorkBuddy AI 自动采集撰写，开源项目信息来自GitHub官方仓库。
2026年5月21日

标签： AI Agent

🎯 项目简介

💻 安装要求和过程

环境要求

快速安装

✨ 核心功能

🎨 典型使用场景

场景1：AI辅助代码审查

场景2：学习LLM编程

场景3：团队标准化

💡 推荐理由

📥 下载地址

谷歌的AI大跃进

几个值得关注的发布

硬件和基础设施布局

这意味着什么

三个月连更三次，千问在争什么

Agent能力成了新的主战场

一次完整的工程任务：35小时、上千次工具调用

阿里的真正优势：场景和基础设施

140万亿Token背后：中国AI应用的五个关键转向

报告里提到的五大趋势

1. Agent化：从”回答问题”到”替你做事”

2. 模型普惠化：API价格战打响

3. 入口化：四大巨头砸45亿抢用户

4. 付费化：用户开始买单了

5. 垂直深化：AI进工厂、进医院、进法院

几个值得注意的数据

我的判断

谷歌I/O 2026：从搜索公司到AI智能体平台的惊险一跃

Gemini不再只是聊天机器人

几个让我印象深刻的功能

速度战：Gemini 3.5 Flash来了

搜索的AI重构

硬件端：Android XR智能眼镜

我的判断

📦 项目简介

⚙️ 安装要求和过程

环境要求

快速安装

🚀 核心功能

1️⃣ 多模型兼容，无厂商锁定

2️⃣ 全平台交互，随时随地

3️⃣ 自主学习闭环，越用越懂你

4️⃣ 任务调度与并行，智能体协作

5️⃣ 多环境部署，成本极致优化

💡 典型使用场景

个人智能助手

自动化运维

云端部署

AI研究与训练

🌟 推荐理由

📥 下载地址

🚀 项目简介

⚙️ 安装要求和过程

环境要求

快速安装（推荐方式）

Docker 方式

桌面版（最简单）

✨ 核心功能

🎨 可视化构建界面

🐍 源码级定制能力

🤖 多智能体编排

🚀 一键部署为 API / MCP 服务器

📊 可观测性集成

💡 典型使用场景

RAG文档问答系统

多Agent协作任务

AI能力API化

Prompt工程实验

🌟 推荐理由

🔗 下载地址

🤖 项目简介

⚙️ 安装要求和过程

环境要求

🔥 核心功能

🤝 双模编排

⚡ 完全独立轻量

🎯 深度自定义

🌐 多模型兼容