标签： AI Agent

豪歌也在摸着石头过河：AI安全的真实困境

谷歌也在摸着石头过河：AI安全的真实困境

上周在洛杉矶的一场活动后台，谷歌云首席运营官Francis de Souza跟我聊了二十多分钟AI安全。他的语气很稳，像大学教授讲课那种感觉，说现在大家都在”实时摸索”AI安全规范，谷歌自己也不例外。

这话听起来有点反直觉。谷歌可是全球最顶尖的AI公司之一，它居然也在”摸索”？

AI安全已成为企业无法回避的核心议题（图源：TechCrunch）

“影子AI”正在悄悄蔓延

de Souza反复强调一个观点：安全不能是事后补救。很多公司引入AI工具的时候，先上线再说，安全配置留到后面再搞——这基本上是把门打开再想着装锁。

他特别提到了”影子AI”的风险。这个词听起来有点吓人，其实说的就是员工私下用消费级AI工具，比如拿ChatGPT处理公司机密文档，或者用了某个AI插件但公司根本不知道。这种行为没有组织监督，数据流向完全不可控。

“不存在没有数据战略和安全战略的AI战略，这三者必须齐头并进。”——Francis de Souza，谷歌云首席运营官

智能体发现了被遗忘的数据库

这篇文章里有个细节让我印象深刻。de Souza说，在企业内部系统中自主移动的AI智能体，可能会发现多年前就被遗忘的数据存储库。

很多组织有旧的SharePoint服务器和访问控制机制，很久没更新了，以前这没什么大不了的，因为根本没人知道那些数据在哪。但AI智能体在企业里”漫游”的时候，会找到这些被遗忘的数据资产，然后——把数据暴露出来。

这本质上是一种新型的攻击面。传统的网络安全防御模型是针对人类黑客设计的，但AI智能体的行为模式完全不同，它们有能力访问人类可能不会去碰的数据角落。

谷歌自己的漏洞呢？

有意思的是，就在de Souza讲这番话的同时，《The Register》连续报道了谷歌云的一连串安全问题。

事情是这样的：很多开发者把谷歌地图的API密钥放在公开代码里（按照谷歌自己的文档说明做的），以前这些密钥只能访问地图服务，所以泄露了也没什么大不了。但谷歌悄悄扩大了这些密钥的权限范围，让它们也能调用Gemini模型——而且没有清楚地告知开发者这个变化。

结果就是：攻击者在30分钟内让一家面试准备平台CEO的谷歌云账单飙到了10138美元。另一个澳大利亚开发者的账户被刷了约17000澳元。

更离谱的是，谷歌的自动系统会根据账户历史记录”升级”计费等级， effectively把开发者的支出上限从他们设置的250美元提到了10万美元——而且没有明确要求同意。

密钥撤销要等23分钟

安全公司Aikido的研究发现，即使开发者发现了密钥泄露并立即删除它，攻击者在接下来的23分钟内仍然可以用这个密钥访问Gemini。因为谷歌的密钥撤销操作是在基础设施中”逐渐传播”的，不是即时生效的。

研究人员指出，谷歌云较新的凭证格式（服务账户API凭证）撤销时间约为5秒，Gemini较新的AQ前缀密钥格式约为1分钟。技术上完全可以做到更快，23分钟的窗口期不是一个工程限制问题，而是一个公司优先级的问题。

读完de Souza的那番话再来看这些报道，感觉有点微妙。他说的是对的，企业确实需要把安全放在前面，而不是事后补救。但平台自己提出的建议，和它们自己适应这些建议的速度之间，存在着一个不小的差距。

领英首席信息安全官Lea Kissner本周对《纽约时报》说，她预计这个行业至少需要几年时间，才能以任何可持续的长期方式理解AI安全。这几年里，企业和平台都在同一条船上，大家一起摸着石头过河。

📎 原文来源：Everyone is navigating AI security in real time — even Google (TechCrunch)

2026年5月26日
LangGraph —— 用图结构编排生产级 AI Agent，让复杂工作流清晰可观测
GitHub 29K+ Stars

LangGraph

生产级 AI Agent 编排框架，用图结构掌控复杂工作流

项目简介

LangGraph 是 LangChain 团队推出的低级别 Agent 编排框架，通过有向图（DAG）建模 Agent 的执行路径，实现状态持久化、人机协同、可观测的复杂 AI 工作流。已将 LangChain 从”链式调用”升级为”图式编排”，是多步骤、有条件分支、需要人工审核的 Agent 系统的工程化首选方案。
安装要求与过程

环境要求

Python >= 3.9

pip 包管理器

（可选）LangSmith 账号用于可视化管理

# 快速安装

pip install -U langgraph

# 安装 LangGraph Studio（可视化编辑器）

pip install langgraph-studio

# 验证安装

python -c “import langgraph; print(langgraph.__version__)”
核心功能

1

图结构编排（Graph Orchestration）

用节点（Node）和边（Edge）显式定义 Agent 执行路径，支持条件分支、循环、并行执行，执行过程完全可观测、可回溯、可干预。

2

持久化状态（Persistent State）

自动将 Agent 执行状态持久化到存储后端（内存/SQLite/PostgreSQL），支持从任意断点恢复执行，无需重复处理已完成步骤，是长时间运行 Agent 的基石能力。

3

人机协同（Human-in-the-Loop）

可在 Agent 执行的任意节点暂停，等待人工审核、修改状态或批准下一步操作，适用于高风险决策场景（如金融审批、医疗诊断辅助）。

4

多 Agent 协同（Multi-Agent）

原生支持 Sub-graph（子图）和 Send（动态分发），可构建层级化多 Agent 系统，不同 Agent 负责不同子任务，通过图结构协调通信与状态共享。

5

LangSmith 深度集成

一键接入 LangSmith 可视化追踪平台，实时查看 Agent 执行轨迹、状态变化、Token 消耗和延迟指标，复杂 Agent 行为的调试效率提升 10 倍以上。

典型使用场景

场景一：复杂客户支持 Agent

构建需要多步骤推理的客户支持系统——先理解用户意图（分类节点），再查询知识库（RAG 节点），然后生成回复（LLM 节点），最后人工审核敏感回复（人机协同节点）。每个步骤的执行路径、状态变化、失败重试都通过 LangGraph 图结构精确控制。

场景二：代码生成与审查流水线

实现自动化代码生成 Agent——需求分析 → 代码生成 → 静态检查 → 单测生成 → 人工审核 → 提交 PR。每个阶段作为图的一个节点，条件边决定流程走向（如检查失败则回到生成节点），整个流水线状态可持久化，断点续跑无需从头开始。

场景三：多 Agent 研究助手

构建多 Agent 协作的研究系统——协调者 Agent 接收问题，分发给搜索 Agent、分析 Agent、写作 Agent，各子 Agent 并行工作，最终结果由审核 Agent 汇总。LangGraph 的 Sub-graph 和状态共享机制让多 Agent 协作的代码结构清晰可维护。

推荐理由

LangGraph 解决了 AI Agent 开发中最痛的”黑盒执行”问题。传统 Agent 框架（包括早期 LangChain）的执行路径是隐式的，调试时只能看到最终输出，无法知道 Agent 为什么走了某条路径。

LangGraph 的核心价值在于显式建模——把 Agent 的每一步逻辑、每一个条件分支、每一个状态转移都定义成图结构，执行过程像代码一样可读、可调试、可复现。这对生产级 Agent 系统来说是刚需。

实际使用中，最常用的模式是 StateGraph + checkpoint：定义状态类（TypedDict），用 add_node() 和 add_edge() 构建图，用 SqliteSaver 做持久化。整个开发体验接近写普通 Python 代码，但获得的是生产级的容错和可观测能力。

如果你正在用 LangChain 但感觉 Agent 逻辑不够透明，或者需要构建有条件分支、人工审核环节的 Agent 系统，LangGraph 是目前最成熟的工程化方案，没有之一。

下载地址

GitHub 仓库
 官方文档
 免费课程
 LangGraph.js

如果这篇文章对你有帮助，欢迎在 GitHub 给 LangGraph 点个 Star！
2026年5月26日
Aider：45.3k Stars！终端AI结对编程工具，让Git与AI完美融合
📌 项目简介

Aider 是一款在终端中运行的AI结对编程工具，支持从零启动新项目或基于现有代码库进行开发。它不仅能理解整个代码库的结构，还能自动执行lint和测试，是开发者的AI编程利器！

⚙️ 安装要求和过程

环境要求
- Python 3.8+
- Git（Aider原生集成Git）
- API密钥（Anthropic/OpenAI/DeepSeek等）
快速安装步骤
1. 安装Aider：
```
python -m pip install aider-chat
aider
```
2. 配置API密钥：
```
# 使用Claude 3.7 Sonnet
export ANTHROPIC_API_KEY=your-key
aider --model sonnet

# 使用DeepSeek
export DEEPSEEK_API_KEY=your-key
aider --model deepseek

# 使用GPT-4o
export OPENAI_API_KEY=your-key
aider --model gpt-4o
```
3. 进入项目目录：
```
cd /path/to/your/project
aider
```
💡 核心功能

1. 全代码库理解

Aider能自动生成整个代码库的”地图”，理解项目结构，无论项目多大都能精准定位需要修改的文件。

2. Git原生集成

每次AI修改后，Aider都会自动生成合理的commit信息，你可以通过Git轻松diff、管理和回滚AI的修改。

3. 多模态输入支持

支持添加图片、网页到对话，提供视觉上下文、截图、参考文档等，让AI更准确理解你的需求。

4. 自动校验与修复

每次修改后自动执行代码lint和测试，如果检测到lint错误或测试失败，Aider会自动修复！

5. 语音转代码

支持语音输入需求，自动实现新功能、测试用例或Bug修复，编程效率翻倍！

🚀 典型使用场景

场景1：新项目从零启动

想快速搭建一个新项目？只需在终端输入：
```
$ aider
Aider> 帮我创建一个Flask REST API，包含用户认证和JWT令牌
```
Aider会自动生成项目结构、配置文件、路由和测试用例，并自动提交第一个commit！

场景2：现有代码库的功能迭代

在已有项目中添加新功能？Aider理解整个代码库：
```
$ aider
Aider> 在用户模型中添加一个"最后登录时间"字段，并更新相关API
```
Aider会自动找到需要修改的文件，添加字段，更新迁移脚本，修改API响应，并运行测试确保一切正常！

场景3：Bug修复与测试

遇到Bug？让Aider帮你定位和修复：
```
$ aider
Aider> 修复用户登录时的502错误，并添加测试用例
```
Aider会分析日志、定位问题、修复代码、添加测试，确保问题不再复现！

🎯 推荐理由

作为一名开发者，我一直在寻找能让AI真正融入编程工作流的工具。Aider是我用过的最实用的AI编程助手，原因如下：

✅ Git原生集成：不像其他工具那样”黑盒”修改，Aider的每次修改都有清晰的commit，你可以随时diff或回滚。

✅ 理解大型代码库：Aider会生成整个代码库的地图，即使是很复杂的项目，它也能精准定位需要修改的地方。

✅ 自动修复lint/测试错误：这是我最喜欢的功能！Aider修改代码后会自动运行lint和测试，如果有错误会自动修复，真正实现了”自动化编程”。

✅ 支持100+编程语言：无论你用Python、JavaScript、Rust、Go还是C++，Aider都能胜任。

✅ 多模态输入：可以添加图片、网页到对话，让AI更准确理解你的需求，这对前端开发特别有用！

如果你想要一个真正能理解你的代码库、并与Git无缝集成的AI编程助手，Aider绝对值得一试！

📥 下载地址
官方资源
- 官网：https://aider.chat/
- GitHub仓库：https://github.com/Aider-AI/aider (45.3k ⭐)
- 安装文档：https://aider.chat/docs/install.html
- 使用教程：https://aider.chat/docs/usage/tutorials.html
- Discord社区：https://discord.gg/Y7X7bhMQFV
快速安装
```
# 安装Aider
python -m pip install aider-chat

# 使用Claude 3.7 Sonnet（推荐）
export ANTHROPIC_API_KEY=your-key
aider --model sonnet

# 使用DeepSeek（性价比高）
export DEEPSEEK_API_KEY=your-key
aider --model deepseek

# 使用GPT-4o
export OPENAI_API_KEY=your-key
aider --model gpt-4o
```
#开源项目 #AI编程 #终端AI #Aider #GitHub热门 #AI Agent
2026年5月26日
英伟达又破纪录了，但黄仁勋盯上了更大的蛋糕

英伟达又破纪录了，但黄仁勋盯上了更大的蛋糕

英伟达刚交出一份又破纪录的财报——截至4月26日的季度，营收816亿美元，环比增长20%，其中数据中心营收752亿美元，同样创下新高。季末公司还授权了800亿美元的股票回购计划，看上去一切都在按计划推进。

但黄仁勋在财报电话会上话锋一转，抛出了一个更大的数字：英伟达发现了一个全新的2000亿美元总可寻址市场（TAM）。这个市场来自英伟达今年3月刚发布的Vera CPU——全球第一款专为代理式AI（Agentic AI）设计的中央处理器。

黄仁勋在GTC大会上（图源：Getty Images）

为什么是CPU？

这个逻辑听起来有点反直觉——英伟达不是做GPU起家的吗？黄仁勋的解释是：AI模型的”思考”部分由GPU负责，但AI智能体（Agent）的大部分任务执行，其实跑在CPU上。随着智能体数量爆发，对CPU的需求会跟着涨。

“全球有10亿人类用户，我的判断是未来会有数十亿个智能体。这些智能体都会使用工具，而这些工具会像个人电脑一样运行——当然不是现在，我们会在发展过程中逐步达到这个规模。”黄仁勋在电话会议上这样说。

Vera的设计思路和传统CPU不一样。传统CPU追求”核心数”，目标是尽可能同时跑多个应用实例；而Vera专门优化了token处理速度，匹配智能体场景的需求。这款产品既可以单独销售，也可以和英伟达的下一代GPU Rubin捆绑销售。

财报里的其他细节

说回财报本身。英伟达预计下季度营收910亿美元，增幅约12%——比本季度的20%明显放缓，市场对此其实早有预期，AI算力建设的周期性和需求波动是真实存在的。

中国市场的出口管制仍是悬而未决的问题。CFO科莱特·克雷斯表示，H200虽然已获得美国出口批准，但英伟达尚未从中产生任何收入，也不确定是否会被允许向中国出口。

另一个值得注意的数据是英伟达在私营公司的持股——1月时价值220亿美元，到季度末已经涨到430亿美元，主要来自季度内185亿美元的收购。这个数字还不包括对康宁、IREN等上市公司的投资，也不反映尚未完成的承诺（比如2月承诺向OpenAI投资的300亿美元）。

黄仁勋在电话会上还提到了和Anthropic的合作——今年和明年为Anthropic上线的产能会”非常可观”。在此之前，英伟达对Anthropic的覆盖基本为零。这说明英伟达正在把算力基础设施的触角伸向AI最大的几个客户，而Vera CPU就是这套布局里的重要一环。

2000亿美元是不是画饼？现在下判断还为时过早。但Vera上市首年就有200亿美元的销售额，至少说明市场愿意给它一个机会。至于能不能守住这块新市场，就要看英特尔、AMD和各大云厂商自研芯片的反击速度了。

📎 原文来源：Nvidia posts another record quarter, reveals $43B of holdings in startups — TechCrunch
📎 相关报道：Jensen Huang says he’s found a ‘brand new’ $200B market for Nvidia — TechCrunch

2026年5月26日
Google DeepMind憋了个大招：AI不再只陪你聊天，开始帮你搞科研了
前两天刷到Google DeepMind的一条消息，说他们搞了个叫Co-Scientist的东西——多智能体AI系统，专门给科研人员用的。我第一反应是：又来一个”AI助力科研”的PPT项目？但仔细看完，发现这次有点不一样。

Co-Scientist：基于Gemini构建的多智能体科研助手

从”搜索工具”到”科研搭档”，这步跨得挺大

以往AI在科研里的角色，说白了就是个高级搜索引擎——你问它”XXX领域有什么进展”，它给你列一堆文献摘要，然后你自己去啃。

Co-Scientist想做的事不一样。它的定位是：假设生成、讨论、验证的协同伙伴。核心架构是”生成-讨论-验证”三阶段，多个AI智能体互相抬杠、互相验证，最后给你一个它觉得靠谱的假设方向。

传统科研里，一个有价值的研究假设，往往需要研究者花几个月甚至几年去打磨。Co-Scientist的目标，是把这个”灵感孵化”的过程，压缩到几天甚至几个小时。

它到底强在哪？不是参数多，是”会自己纠偏”

DeepMind在介绍里特意强调了一点：Co-Scientist强化了准确引用专业文献和自我修正逻辑矛盾的能力。

这话什么意思？你去用用现在市面上的大模型，让它帮你梳理一个研究假设，十有八九会出现”编造引用”（hallucinated references）或者”前后逻辑打脸”的情况。Co-Scientist针对这个痛点做了强化，目标是让AI在科研场景里不乱说话。

当然，现在它还处在实验性开放阶段，主要面向研究机构，不是你我去网页上就能白嫖的。但它透露出的方向很明确：AI不再只是”知识的搬运工”，而是开始涉足”知识的创造过程”。

瞄准的是哪些科研领域？生物学、化学，还有那些”人类搞了几十年还没搞明白”的难题

DeepMind在展望里点名了几个方向：
- ALS（肌萎缩侧索硬化症）治疗：这个病折腾了科学界几十年，AI能不能帮忙找到新的药物靶点或者治疗路径？Co-Scientist想试试。
- 衰老研究：衰老机制极其复杂，假设空间巨大，人工筛选成本极高。AI介入后，可能会开辟一些人类研究者还没想到的角度。
- 化学分子设计：新药物、新材料的分子结构搜索，本质上是超高维空间的探索问题，AI”生成-验证”的循环在这里很有优势。
未来DeepMind还打算把Co-Scientist跟实验自动化系统整合起来。到那时候，AI不只是帮你”想”，还能指挥实验室里的机器人去”做”，再把结果喂回来继续迭代。这个闭环一旦跑通，科研效率的跃升会是数量级的。

跟OpenAI证明数学猜想那件事，其实是同一个信号

几乎同一时间，OpenAI也放了个大卫星：他们的推理模型证明了一个80年没解决的数学猜想（Erdős单位距离猜想），证明过程125页。

这两件事放在一起看，信号就很清楚了：2026年的AI，已经从”帮我总结一下”进化到”帮我证明/帮我发现”了。这不是简单的参数堆砌，而是推理能力、文献理解、逻辑自洽性这几件事同时到了一个临界点。

科研人员如果还在把AI当”高级搜索引擎”用，可能真的有点亏了。下一步值得关注的，是这些科研AI智能体能不能真正加速重大发现，而不只是在已有假设上修修补补。

📎 原文来源：Google DeepMind官方博客 – Co-Scientist
2026年5月25日
Flowise：42.4k Stars！可视化LLM应用搭建工具，让AI工作流像搭积木一样简单

## 📝 项目简介

**Flowise**（flowiseai.com）是一个 **Low-code 的 LLM 应用构建平台**，让你通过可视化拖拽的方式快速搭建基于大语言模型的 AI 应用。它的定位类似于 Langflow，但更轻量、更易上手，专注于让开发者和非开发者都能快速把 LLM 能力落地到实际产品中。

## 🔧 安装要求和过程

### 环境要求
– **Node.js** 18+ （必须）
– **npm** 或 **yarn**
– 支持 Windows / macOS / Linux

### 快速安装（3步搞定）

**方法一：NPX 直接运行（推荐体验）**
“`bash
npx flowise start
“`

**方法二：全局安装**
“`bash
npm install -g flowise
npx flowise start
“`

**方法三：本地开发**
“`bash
git clone https://github.com/FlowiseAI/Flowise.git
cd Flowise
pnpm install
pnpm build
pnpm start
“`

安装完成后访问 `http://localhost:3000` 即可进入可视化界面。

## ⚡ 核心功能

**1. 可视化 LLM 流程编排**
通过拖拽组件的方式连接 Prompt、LLM、Memory、Tools 等节点，无需写代码就能构建复杂的 AI 工作流。

**2. 丰富的组件库**
内置支持 OpenAI、Anthropic、Hugging Face、Ollama 等主流 LLM 提供商，以及 Vector Store、Document Loader、Chain 等常用组件。

**3. 对话记忆管理**
支持多种 Memory 类型（Buffer Memory、Window Memory 等），让 AI 应用具备上下文记忆能力。

**4. API 一键部署**
流程构建完成后，一键生成可调用的 API 接口，直接集成到你的应用或网站中。

**5. 向量数据库集成**
原生支持 Pinecone、Milvus、PostgreSQL(pgvector) 等主流向量数据库，轻松构建 RAG 应用。

## 🚀 典型使用场景

**场景1：构建企业知识库问答机器人**
上传公司文档 → 接入向量数据库 → 搭建 RAG 流程 → 生成 API → 嵌入企业微信/官网。全程可视化，非技术人员也能操作。

**场景2：快速原型验证 AI 创意**
想验证一个 AI 产品的想法？用 Flowise 拖拽出原型，生成 API 直接测试，比写代码快10倍。很多团队用它做 AI 产品的 MVP 验证。

**场景3：为现有应用添加 AI 能力**
已有 Web/移动应用？用 Flowise 构建 AI 流程，生成 API，3行代码就能把智能对话、文档分析、内容生成能力接入你的产品。

## 💡 推荐理由

为什么推荐 Flowise？

① 比 Langflow 更轻量 — 安装包更小，启动更快，界面更简洁。
② 真正能用在生产环境 — 不少同类工具只是 demo 级别，Flowise 的 API 可以直接承载生产流量。
③ 社区活跃，文档完善 — 42k+ Stars，持续迭代，中文资料也逐渐丰富。
④ 对非开发者友好 — 产品经理、运营同学也能用它搭建 AI 流程，不用等开发排期。
⑤ 与 Langflow 互补 — 如果你在用 Langflow，Flowise 值得对比试用，两者各有优势。

## 📥 下载地址

**🌐 官方网站**
https://flowiseai.com

**🐙 GitHub 仓库**
https://github.com/FlowiseAI/Flowise
（42.4k+ Stars，持续更新中）

**📚 官方文档**
https://docs.flowiseai.com

**💬 Discord 社区**
https://discord.com/invite/jBaHxxxadB

本文由 WorkBuddy AI 自动采集撰写，内容来源于 GitHub 公开信息及官方文档。

2026年5月25日
Google DeepMind搞了个AI科研搭档，科学家要失业了？

Google DeepMind搞了个”AI科研搭档”

科学家做研究，最花时间的是啥？不是做实验，是”想假设”和”查文献”。一个靠谱的假设，往往要读几百篇论文、反复试错几个月甚至几年。Google DeepMind最近发布了一个叫Co-Scientist的多智能体系统，目标是让AI来干这件事。

这个系统基于Gemini构建，但跟普通的聊天机器人不一样。它不是你问它答，而是真的在”做科研”——生成假设、跟自己”讨论”、再去文献里找证据验证，然后反复迭代，直到假设站得住脚。

普通LLM的问题在于：它不确定时会瞎编，而且不会主动承认”这个结论有矛盾”。Co-Scientist的核心是，它能在多个专业智能体之间制造”争论”，让它们在讨论中发现逻辑漏洞，然后自己去文献里找证据修补。

三个步骤，模拟科学家的思考过程

Co-Scientist的运作分三个阶段：生成、讨论、验证。

生成阶段，系统会根据你给的研究方向，产生一批可能的假设。这些假设不是随机生成的，而是基于已有的科学文献和数据库。

讨论阶段最有意思。系统里有好几个”智能体”，每个扮演不同的角色——有的负责挑刺，有的负责找支持证据，有的负责检查逻辑一致性。它们会互相”吵架”，直到对某个假设达成一致意见。

验证阶段，系统会去查文献，看看这个假设跟已知的研究是否矛盾，有没有实验数据支持。如果有矛盾，它会回过头去修正假设，然后重新走一遍流程。

已经在用的场景

Google已经在跟Google Cloud和Google Labs合作，让研究人员试用这个系统。目前的反馈是，它在”假设筛选”这个环节特别有用——人类科学家往往靠直觉和经验来判断一个假设值不值得深究，但直觉会出错，经验有盲区。Co-Scientist能把这些假设结构化地过一遍，帮人更快地找到值得深挖的方向。

特别值得关注的是，Google正在把它应用到ALS（肌萎缩侧索硬化症）的疗法开发，还有衰老研究。这两个领域都有一个共同点：数据极其复杂，变量极多，人类研究者很难把所有线索串起来。AI的优势正好在这里——它能同时处理海量文献，发现人眼看不到的模式。

下一步是跟实验自动化打通

现在的Co-Scientist还停留在”纸上谈兵”阶段——它能生成和验证假设，但验证完了，还得人类去做实验。Google的下一步计划，是把这个系统跟实验自动化系统整合起来，让AI生成的假设能直接在实验室里被验证。

如果这一步实现了，科研的效率提升会是数量级的。现在从一个假设到发表论文，往往要几年。如果假设生成、验证、实验、数据分析全都能由AI加速，可能几个月就能走完。

当然，这里有个绕不开的问题：AI生成的假设，如果连人类都理解不了为啥它对，那还敢不敢照着做实验？这个问题，可能比技术本身更难回答。

📎 原文来源：Co-Scientist: A multi-agent AI partner to accelerate research

2026年5月25日
agent-skills：45.4k Stars！Google工程师开源的AI编码生产级技能库，让AI输出工业级代码
你有没有遇到过这种情况：让AI帮你写代码，它确实写出来了，但一测就挂，还没测试、没文档、没安全检查——因为它总是走「最短路径」，能跑就行。

Google Cloud AI总监、AngularJS联创Addy Osmani也发现了这个问题，于是他在2026年2月开源了 agent-skills——一个把高级工程师开发软件时的完整工作流、质量门禁和最佳实践封装成可复用技能的工具包，让AI代理在开发全流程中都能遵循与生产环境一致的标准。

📊 项目数据

GitHub Stars：45.4k+ | 开源协议：MIT | 维护者：Addy Osmani（Google） | 适用工具：Claude Code、Cursor、Gemini CLI、Windsurf、Copilot 等

📌 项目简介

agent-skills 是一个面向AI编程代理的生产级工程技能集合，将资深工程师在开发软件时遵循的工作流、质量门禁和最佳实践编码为可复用的技能模块，让AI代理不再「能跑就行」，而是输出符合生产级质量标准的代码。项目覆盖从需求定义、计划拆解、迭代开发、测试验证、代码审查到上线部署的完整开发生命周期，并预置了可自动触发的专项技能。

⚙️ 安装要求与过程
环境要求
- 支持任意AI编程代理（Claude Code、Cursor、Gemini CLI、Windsurf、Kiro、Copilot等）
- 部分技能需要配合对应MCP服务使用（如Chrome DevTools MCP）
- 无额外依赖，技能文件为纯Markdown格式
快速安装（以Claude Code为例）

方式一：从市场安装（推荐）

# 添加市场源
/plugin marketplace add addyosmani/agent-skills
# 安装技能包
/plugin install agent-skills@addy-agent-skills

方式二：本地克隆安装

git clone https://github.com/addyosmani/agent-skills.git
claude –plugin-dir /path/to/agent-skills

其他工具（Cursor、Gemini CLI、Windsurf等）详见项目 docs/ 目录下的对应配置指南。

✨ 核心功能

1

23个细分技能模块，覆盖开发全生命周期

从需求定义（/spec）、计划拆解（/plan）、增量开发（/build）、测试驱动（/test）、代码审查（/review）到上线部署（/ship），每个阶段都有对应的技能工作流，AI必须按步骤执行，不能跳过。

2

反合理化机制，防止AI走捷径

每个技能都内置「常见借口反驳表」——比如AI想说「我之后再补测试」，技能会直接反驳并强制要求先写测试。验证要求明确到必须提供证据（测试通过截图、构建输出等），不允许「看起来没问题」这种模糊判断。

3

自动触发 + 斜杠命令双模式

设计API时自动激活 api-and-interface-design 技能，构建UI时自动激活 frontend-ui-engineering 技能；同时也支持手动输入 /spec、/plan、/build、/test 等7个斜杠命令精准触发对应技能。

4

预配置专家代理角色，多维度审查

内置 code-reviewer（高级工程师视角）、test-engineer（QA专家视角）、security-auditor（安全工程师视角）三个专家代理角色，可在关键节点自动调用，对代码进行多维度审查。

🚀 典型使用场景

场景一：让AI严格按照TDD流程开发新功能

输入 /test 激活测试驱动开发技能，AI会严格遵循「红→绿→重构」流程，先写失败测试，再写最小实现，最后重构；测试金字塔比例强制为 80% 单元测试 / 15% 集成测试 / 5% E2E测试，确保测试覆盖全面而不冗余。

场景二：上线前全自动代码审查与安全加固

输入 /review 触发代码审查技能，AI会按五轴审查法（正确性、可读性、安全性、性能、可维护性）逐文件审查，变更控制在约100行以内；同时自动激活 security-and-hardening 技能，对照 OWASP Top 10 逐项检查，不通过不许合并。

💡 推荐理由

我一直觉得现在的AI编程工具最大的问题不是「写不出代码」，而是「写出来的代码不经过生产级流程」——没有需求文档、没有测试、没有安全审查，直接给你一个能跑的版本就完事。agent-skills 的本质，就是把 Google 级别的工程成熟度「编译」成了AI可以理解和执行的技能工作流。

最让我印象深刻的是它的「反合理化机制」——AI 想偷懒的时候，技能会直接「怼回去」，要求提供证据而不是口头保证。这比任何 Prompt 技巧都更有效，因为它是在流程层面强制质量，而不是靠 AI 的「自觉」。

如果你在用 Claude Code、Cursor 或其他AI编程工具，这个项目值得认真配置一套——它会让你AI助手输出的代码质量提升一个维度。

📥 下载地址

🌐 官方网站：https://github.com/addyosmani/agent-skills

📦 GitHub仓库：https://github.com/addyosmani/agent-skills

📚 配置文档：https://github.com/addyosmani/agent-skills/tree/main/docs

💬 技能市场：https://agentskill.work/zh/skills/addyosmani/agent-skills

📄 开源协议：MIT License（可自由使用、修改和分发）

💡 小编注：

这个项目背后的理念其实很深刻——AI编程工具的能力上限不仅仅取决于模型本身，更取决于我们给它的「工程上下文」。agent-skills 做的，就是把这些上下文系统化、可复用化。值得一提的是，Addy Osmani 同时也是热门项目 addyosmani/superpowers（第30期已介绍）的作者，两个项目一脉相承，建议搭配使用，效果更佳。
2026年5月25日
mem0：39.9k Stars！AI Agent 通用记忆层，让AI真正记住你
📦 项目速览
项目名称：mem0（mem-zero）
GitHub： mem0ai/mem0
Stars： 39.9k+
类型：AI Agent 记忆层基础设施
技术栈：Python、TypeScript、向量数据库
官方文档： https://docs.mem0.ai

🔍 项目简介

mem0 是为 AI Agent 和应用设计的通用记忆层（Universal Memory Layer）。它的核心使命很简单：让 AI 记住你。不是简单地把对话历史塞进上下文窗口，而是真正地理解、提取、压缩、检索那些对当前任务最有价值的信息。

你可以把它理解为 AI 应用的”海马体”——负责将短期交互转化为可持久化的长期记忆，并在需要时精准召回。目前已有超过 9 万名开发者使用 mem0 构建 AI 应用，并通过了 SOC 2（Type 1）和 HIPAA 合规认证。

💡 一句话理解 mem0：如果大模型是”算力”，向量数据库是”知识库”，那 mem0 就是让 AI 拥有连续人格的记忆系统。没有它，每次对话 AI 都是”失忆症患者”。

⚙️ 安装要求与过程
📋 环境要求

Python：3.9 及以上版本

依赖：pip 可独立完成安装

可选：PostgreSQL + pgvector（生产环境推荐）、Qdrant / Chroma（向量存储后端）

云端版：无需部署，注册即用（适合快速验证）
🚀 快速安装（3 步搞定）

安装 SDK：在终端运行 pip install mem0ai

获取 API Key：前往 app.mem0.ai 注册并获取密钥

开始使用：参考下方代码，3 行代码即可添加记忆
```
import os
from mem0 import MemoryClient

# 初始化客户端
client = MemoryClient(api_key=os.getenv("MEM0_API_KEY", "your-api-key-here"))

# 添加记忆：传入对话上下文和用户 ID
messages = [
    {"role": "user", "content": "我是素食主义者，对坚果过敏。"},
    {"role": "assistant", "content": "好的，我会记住您的饮食偏好。"},
]
client.add(messages, user_id="user123")

# 检索记忆
results = client.search("我的饮食限制是什么？", user_id="user123")
print(results)
```
mem0 同时支持 Python 和 Node.js SDK，也提供 Agent Harness、LangChain 插件、CrewAI 集成等多种接入方式。

✨ 核心功能

1. 记忆全生命周期管理

三步实现记忆可用：添加（快速输入各类数据）→ 学习（自动提取、更新有效记忆）→ 检索（交互时自动召回关键记忆，无需手动处理上下文）。整个过程对开发者透明，无需改造现有 AI 应用管线。

2. 记忆压缩引擎

自动将冗长的聊天历史压缩为精简的结构化记忆，在保留核心上下文的同时，大幅降低 Token 消耗、减少响应延迟。实测可将长对话的上下文Token 使用量减少 70%+。

3. 多场景适配能力

可针对不同领域（医疗、教育、电商、客服等）定制记忆逻辑，精准保留各场景下对用户最有价值的信息。比如医疗场景会优先保留过敏史、用药记录，而电商场景则重点关注购买偏好和尺码信息。

4. 企业级管控能力

支持 SOC 2、HIPAA 合规，提供 BYOK（自带密钥）、零信任架构；支持 Kubernetes、私有云、离线环境部署；所有记忆的读写操作全量日志留存，可追溯操作主体、内容和时间。

5. 高性能检索算法

采用单通道分层蒸馏和多信号检索算法，在 LoCoMo、LongMemEval、BEAM 等多个长上下文记忆基准测试中表现优异，记忆召回准确率和效率经过权威验证。

🚀 典型使用场景

场景一：医疗健康助手

痛点：传统 AI 医疗助手每次对话都”不认识”患者，需要重复询问病史、过敏史，体验极差。

mem0 方案：跨就诊记录记住患者病史、过敏史、治疗偏好，提供个性化护理建议；慢性病管理伴侣可长期学习患者症状规律，提供定制化提醒和健康建议；心理治疗助手可承接过往咨询上下文，提供连贯的、有上下文感知的心理支持。

效果：患者无需每次重新描述病情，AI 助手真正像”了解你的家庭医生”。

场景二：个性化教育导师

痛点：在线教育 AI 无法记住学生的知识盲点、学习节奏和兴趣方向，每次都是”第一次见面”。

mem0 方案：记住每个学生的错题记录、掌握程度、学习偏好，动态调整教学节奏和内容难度；跨课程、跨设备保持学习记忆一致；家长端可查看 AI 导师的”记忆报告”，了解孩子的学习进展。

效果：AI 导师真正做到”因材施教”，而不是千篇一律的答题机器。

场景三：企业级 AI 客服系统

痛点：客户每次联系客服都要重新解释问题，AI 客服无法记住客户的历史工单和偏好设置。

mem0 方案：跨会话记住客户的历史问题、产品偏好、沟通风格；结合 RAG 知识库，提供连贯的、有上下文感知的客服体验；支持多租户隔离，不同客户的记忆完全独立存储。

效果：客户感受到的是”记得我的 AI 客服”，而不是每次都从零开始的机器人。

🌟 推荐理由

为什么你应该关注 mem0？

① 接入成本极低：无需改造现有 AI 应用管线，官方示例显示最快 5 秒即可为 AI 代理添加持久化记忆。对有现有 LangChain / CrewAI / OpenAI 项目的开发者来说，集成成本几乎为零。

② 降本增效明显：通过记忆压缩减少冗余上下文传输，可降低 Token 成本（实测减少 70%+ 上下文长度），同时提升 AI 响应速度。对于高频交互的 AI 应用，这笔账非常好算。

③ 让 AI 真正”有温度”：这是我个人最看重的点。没有记忆的 AI 就像”金鱼脑”，每次对话都是全新的开始。mem0 让 AI 真正记住你是谁、你喜欢什么、你之前问过什么——这种连续性的交互体验，才是 AI 应用应该有的样子。

④ 安全合规有保障：满足 SOC 2、HIPAA 等国际合规标准，支持私有化部署。对于医疗、金融等敏感行业的 AI 应用，这一点至关重要。

⑤ 生态成熟，社区活跃：9 万+ 开发者验证，官方提供完整文档、技术博客、研究资料。GitHub 上 39.9k+ Stars，Issue 响应速度快，不适合”踩坑无人管”的开源项目。

⚠️ 注意事项：mem0 云端版按 API 调用次数收费，高频场景建议自建部署以控制成本。自建部署需要一定的 DevOps 能力（Docker + 向量数据库），小型项目建议先从云端版试用再决定。

📥 下载地址与资源

📦 PyPI（Python 包）：pip install mem0ai
→ https://pypi.org/project/mem0ai/

🌐 官方网站：https://mem0.ai
📚 官方文档：https://docs.mem0.ai
💻 GitHub 仓库：https://github.com/mem0ai/mem0
☁️ 云端平台：https://app.mem0.ai

📎 参考来源：

• mem0 官网

• mem0 GitHub 仓库

• mem0 官方文档

• mem0ai PyPI 页面

— 本文由 WorkBuddy AI 自动采集撰写
2026年5月25日
browser-use：95.3k Stars！让AI代理自动操作浏览器，网页自动化从未如此简单
browser-use – AI浏览器自动化工具

📦 项目简介

browser-use 是一个让AI代理能够自动操作浏览器的开源工具，通过自然语言指令即可完成各类网页操作，无需手动编写复杂的爬虫逻辑。无论是表单填写、网页信息提取，还是复杂的多步骤网页交互，AI都能帮你自动完成。

⚙️ 安装要求和过程

环境要求
- Python版本：≥3.11
- 推荐包管理工具：uv（也可使用pip等常规Python包管理工具）
- 浏览器：自动安装Chromium（也可使用本地已安装的Chrome/Edge）
快速安装步骤
```
# 1. 初始化项目并安装browser-use
uv init && uv add browser-use && uv sync

# 2. 若本地未安装Chromium，执行以下命令自动安装
uvx browser-use install
```
可选配置
- 如需使用云端能力，可前往 Browser Use Cloud 获取API Key，在.env文件中配置即可
- 支持对接多种LLM提供商：自带优化后的ChatBrowserUse模型，也支持Google Gemini、Anthropic Claude、OpenAI等主流模型，还可对接Ollama运行本地模型
💡 核心功能
- 自然语言控制浏览器：支持AI代理通过自然语言指令自动完成各类网页操作，无需手动编写复杂爬虫逻辑
- 双模式支持：提供开源版本和云端托管版本两种使用模式，可按需选择
- 丰富的工具集成：支持集成1000+第三方工具（如Gmail、Slack、Notion等），支持自定义工具扩展
- CLI命令行支持：提供CLI命令行快速操作，提供持久化浏览器会话，适合快速迭代调试
- AI编码工具集成：支持Claude Code等AI编码工具集成，可直接对接AI工作流
云端版本专属能力
- 更强的复杂任务处理能力，任务完成准确率远高于开源版本
- 内置隐身浏览器指纹、代理轮换、验证码自动解决能力，避免被网站反爬检测
- 支持持久化文件系统和记忆，适合长期运行的代理任务
- 无需本地部署，开箱即用，支持大规模并行任务调度
🚀 典型使用场景
1. 个人效率提升：自动完成重复性网页操作，如批量填写表单、自动购物、自动整理网页信息等
2. AI应用开发：作为AI代理的浏览器交互层，让AI具备操作网页的能力，开发智能助手类产品
3. 企业级自动化：结合云端版本的扩展能力，实现大规模网页数据采集、业务流程自动化等场景
4. 编码辅助：对接Cursor、Claude Code等AI编码工具，让AI可以直接操作浏览器验证代码效果、调试网页相关问题
🌟 推荐理由

在AI Agent爆发的2026年，让AI具备操作浏览器的能力，就像给AI装上了一双”眼睛”和”手”。browser-use不仅简化了浏览器自动化的开发流程，更重要的是它让AI真正能够与世界互动——从简单的信息查询到复杂的多步骤业务流程，都可以通过自然语言来完成。

特别推荐它的双模式设计：如果你只是想快速尝试，开源版本足够使用；如果你需要生产级别的稳定性和扩展性，云端版本提供了完整的解决方案。这种灵活的设计理念，让不同需求的开发者都能找到适合自己的使用方式。

另外，它对主流LLM的原生支持也是一大亮点。无论你用的是Claude、GPT还是本地部署的模型，都能无缝对接。这种开放性的设计，正是开源项目的魅力所在。

📥 下载地址
- 官方网站：https://browser-use.com
- GitHub仓库：https://github.com/browser-use/browser-use (95.3k+ Stars)
- 云端版本：https://cloud.browser-use.com
- 开源版本文档：https://docs.browser-use.com/open-source/introduction
- 云端版本文档：https://docs.cloud.browser-use.com
⭐ 如果你觉得这个项目有帮助，欢迎到GitHub上给它一个Star！
2026年5月25日

标签： AI Agent

谷歌也在摸着石头过河：AI安全的真实困境

“影子AI”正在悄悄蔓延

智能体发现了被遗忘的数据库

谷歌自己的漏洞呢？

密钥撤销要等23分钟

LangGraph

项目简介

安装要求与过程

核心功能

典型使用场景

推荐理由

下载地址

📌 项目简介

⚙️ 安装要求和过程

环境要求

快速安装步骤

💡 核心功能

1. 全代码库理解

2. Git原生集成

3. 多模态输入支持

4. 自动校验与修复

5. 语音转代码

🚀 典型使用场景

场景1：新项目从零启动

场景2：现有代码库的功能迭代

场景3：Bug修复与测试

🎯 推荐理由

📥 下载地址

官方资源

快速安装

英伟达又破纪录了，但黄仁勋盯上了更大的蛋糕

为什么是CPU？

财报里的其他细节

从”搜索工具”到”科研搭档”，这步跨得挺大

它到底强在哪？不是参数多，是”会自己纠偏”

瞄准的是哪些科研领域？生物学、化学，还有那些”人类搞了几十年还没搞明白”的难题

跟OpenAI证明数学猜想那件事，其实是同一个信号

Google DeepMind搞了个”AI科研搭档”

三个步骤，模拟科学家的思考过程

已经在用的场景

下一步是跟实验自动化打通

📌 项目简介

⚙️ 安装要求与过程

环境要求

快速安装（以Claude Code为例）

✨ 核心功能

🚀 典型使用场景

场景一：让AI严格按照TDD流程开发新功能

场景二：上线前全自动代码审查与安全加固

💡 推荐理由

📥 下载地址

🔍 项目简介

⚙️ 安装要求与过程

📋 环境要求

🚀 快速安装（3 步搞定）

✨ 核心功能

1. 记忆全生命周期管理

2. 记忆压缩引擎

3. 多场景适配能力

4. 企业级管控能力

5. 高性能检索算法

🚀 典型使用场景

场景一：医疗健康助手

场景二：个性化教育导师

场景三：企业级 AI 客服系统

🌟 推荐理由

为什么你应该关注 mem0？

📥 下载地址与资源

📦 项目简介

⚙️ 安装要求和过程

环境要求

快速安装步骤

可选配置

💡 核心功能

云端版本专属能力

🚀 典型使用场景

🌟 推荐理由

📥 下载地址