标签: AI Agent

  • 豪歌也在摸着石头过河:AI安全的真实困境






    谷歌也在摸着石头过河:AI安全的真实困境

    上周在洛杉矶的一场活动后台,谷歌云首席运营官Francis de Souza跟我聊了二十多分钟AI安全。他的语气很稳,像大学教授讲课那种感觉,说现在大家都在”实时摸索”AI安全规范,谷歌自己也不例外。

    这话听起来有点反直觉。谷歌可是全球最顶尖的AI公司之一,它居然也在”摸索”?

    AI安全概念图
    AI安全已成为企业无法回避的核心议题(图源:TechCrunch)

    “影子AI”正在悄悄蔓延

    de Souza反复强调一个观点:安全不能是事后补救。很多公司引入AI工具的时候,先上线再说,安全配置留到后面再搞——这基本上是把门打开再想着装锁。

    他特别提到了”影子AI”的风险。这个词听起来有点吓人,其实说的就是员工私下用消费级AI工具,比如拿ChatGPT处理公司机密文档,或者用了某个AI插件但公司根本不知道。这种行为没有组织监督,数据流向完全不可控。

    “不存在没有数据战略和安全战略的AI战略,这三者必须齐头并进。”——Francis de Souza,谷歌云首席运营官

    智能体发现了被遗忘的数据库

    这篇文章里有个细节让我印象深刻。de Souza说,在企业内部系统中自主移动的AI智能体,可能会发现多年前就被遗忘的数据存储库。

    很多组织有旧的SharePoint服务器和访问控制机制,很久没更新了,以前这没什么大不了的,因为根本没人知道那些数据在哪。但AI智能体在企业里”漫游”的时候,会找到这些被遗忘的数据资产,然后——把数据暴露出来。

    这本质上是一种新型的攻击面。传统的网络安全防御模型是针对人类黑客设计的,但AI智能体的行为模式完全不同,它们有能力访问人类可能不会去碰的数据角落。

    谷歌自己的漏洞呢?

    有意思的是,就在de Souza讲这番话的同时,《The Register》连续报道了谷歌云的一连串安全问题。

    事情是这样的:很多开发者把谷歌地图的API密钥放在公开代码里(按照谷歌自己的文档说明做的),以前这些密钥只能访问地图服务,所以泄露了也没什么大不了。但谷歌悄悄扩大了这些密钥的权限范围,让它们也能调用Gemini模型——而且没有清楚地告知开发者这个变化。

    结果就是:攻击者在30分钟内让一家面试准备平台CEO的谷歌云账单飙到了10138美元。另一个澳大利亚开发者的账户被刷了约17000澳元。

    更离谱的是,谷歌的自动系统会根据账户历史记录”升级”计费等级, effectively把开发者的支出上限从他们设置的250美元提到了10万美元——而且没有明确要求同意。


    密钥撤销要等23分钟

    安全公司Aikido的研究发现,即使开发者发现了密钥泄露并立即删除它,攻击者在接下来的23分钟内仍然可以用这个密钥访问Gemini。因为谷歌的密钥撤销操作是在基础设施中”逐渐传播”的,不是即时生效的。

    研究人员指出,谷歌云较新的凭证格式(服务账户API凭证)撤销时间约为5秒,Gemini较新的AQ前缀密钥格式约为1分钟。技术上完全可以做到更快,23分钟的窗口期不是一个工程限制问题,而是一个公司优先级的问题。

    读完de Souza的那番话再来看这些报道,感觉有点微妙。他说的是对的,企业确实需要把安全放在前面,而不是事后补救。但平台自己提出的建议,和它们自己适应这些建议的速度之间,存在着一个不小的差距。

    领英首席信息安全官Lea Kissner本周对《纽约时报》说,她预计这个行业至少需要几年时间,才能以任何可持续的长期方式理解AI安全。这几年里,企业和平台都在同一条船上,大家一起摸着石头过河。


  • LangGraph —— 用图结构编排生产级 AI Agent,让复杂工作流清晰可观测

    LangGraph Logo

    GitHub 29K+ Stars

    LangGraph

    生产级 AI Agent 编排框架,用图结构掌控复杂工作流

    项目简介

    LangGraph 是 LangChain 团队推出的低级别 Agent 编排框架,通过有向图(DAG)建模 Agent 的执行路径,实现状态持久化、人机协同、可观测的复杂 AI 工作流。已将 LangChain 从”链式调用”升级为”图式编排”,是多步骤、有条件分支、需要人工审核的 Agent 系统的工程化首选方案。

    安装要求与过程

    环境要求
    • Python >= 3.9
    • pip 包管理器
    • (可选)LangSmith 账号用于可视化管理
    # 快速安装
    pip install -U langgraph

    # 安装 LangGraph Studio(可视化编辑器)
    pip install langgraph-studio

    # 验证安装
    python -c “import langgraph; print(langgraph.__version__)”

    核心功能

    1
    图结构编排(Graph Orchestration)
    用节点(Node)和边(Edge)显式定义 Agent 执行路径,支持条件分支、循环、并行执行,执行过程完全可观测、可回溯、可干预。

    2
    持久化状态(Persistent State)
    自动将 Agent 执行状态持久化到存储后端(内存/SQLite/PostgreSQL),支持从任意断点恢复执行,无需重复处理已完成步骤,是长时间运行 Agent 的基石能力。

    3
    人机协同(Human-in-the-Loop)
    可在 Agent 执行的任意节点暂停,等待人工审核、修改状态或批准下一步操作,适用于高风险决策场景(如金融审批、医疗诊断辅助)。

    4
    多 Agent 协同(Multi-Agent)
    原生支持 Sub-graph(子图)和 Send(动态分发),可构建层级化多 Agent 系统,不同 Agent 负责不同子任务,通过图结构协调通信与状态共享。

    5
    LangSmith 深度集成
    一键接入 LangSmith 可视化追踪平台,实时查看 Agent 执行轨迹、状态变化、Token 消耗和延迟指标,复杂 Agent 行为的调试效率提升 10 倍以上。

    典型使用场景

    场景一:复杂客户支持 Agent
    构建需要多步骤推理的客户支持系统——先理解用户意图(分类节点),再查询知识库(RAG 节点),然后生成回复(LLM 节点),最后人工审核敏感回复(人机协同节点)。每个步骤的执行路径、状态变化、失败重试都通过 LangGraph 图结构精确控制。

    场景二:代码生成与审查流水线
    实现自动化代码生成 Agent——需求分析 → 代码生成 → 静态检查 → 单测生成 → 人工审核 → 提交 PR。每个阶段作为图的一个节点,条件边决定流程走向(如检查失败则回到生成节点),整个流水线状态可持久化,断点续跑无需从头开始。

    场景三:多 Agent 研究助手
    构建多 Agent 协作的研究系统——协调者 Agent 接收问题,分发给搜索 Agent、分析 Agent、写作 Agent,各子 Agent 并行工作,最终结果由审核 Agent 汇总。LangGraph 的 Sub-graph 和状态共享机制让多 Agent 协作的代码结构清晰可维护。

    推荐理由

    LangGraph 解决了 AI Agent 开发中最痛的”黑盒执行”问题。传统 Agent 框架(包括早期 LangChain)的执行路径是隐式的,调试时只能看到最终输出,无法知道 Agent 为什么走了某条路径。

    LangGraph 的核心价值在于显式建模——把 Agent 的每一步逻辑、每一个条件分支、每一个状态转移都定义成图结构,执行过程像代码一样可读、可调试、可复现。这对生产级 Agent 系统来说是刚需。

    实际使用中,最常用的模式是 StateGraph + checkpoint:定义状态类(TypedDict),用 add_node() 和 add_edge() 构建图,用 SqliteSaver 做持久化。整个开发体验接近写普通 Python 代码,但获得的是生产级的容错和可观测能力。

    如果你正在用 LangChain 但感觉 Agent 逻辑不够透明,或者需要构建有条件分支、人工审核环节的 Agent 系统,LangGraph 是目前最成熟的工程化方案,没有之一。

    如果这篇文章对你有帮助,欢迎在 GitHub 给 LangGraph 点个 Star!

  • Aider:45.3k Stars!终端AI结对编程工具,让Git与AI完美融合

    Aider:45.3k Stars!终端AI结对编程工具,让Git与AI完美融合

    📌 项目简介

    Aider

    Aider 是一款在终端中运行的AI结对编程工具,支持从零启动新项目或基于现有代码库进行开发。它不仅能理解整个代码库的结构,还能自动执行lint和测试,是开发者的AI编程利器!

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.8+
    • Git(Aider原生集成Git)
    • API密钥(Anthropic/OpenAI/DeepSeek等)

    快速安装步骤

    1. 安装Aider
      python -m pip install aider-chat
      aider
    2. 配置API密钥
      # 使用Claude 3.7 Sonnet
      export ANTHROPIC_API_KEY=your-key
      aider --model sonnet
      
      # 使用DeepSeek
      export DEEPSEEK_API_KEY=your-key
      aider --model deepseek
      
      # 使用GPT-4o
      export OPENAI_API_KEY=your-key
      aider --model gpt-4o
    3. 进入项目目录
      cd /path/to/your/project
      aider

    💡 核心功能

    1. 全代码库理解

    Aider能自动生成整个代码库的”地图”,理解项目结构,无论项目多大都能精准定位需要修改的文件。

    2. Git原生集成

    每次AI修改后,Aider都会自动生成合理的commit信息,你可以通过Git轻松diff、管理和回滚AI的修改。

    3. 多模态输入支持

    支持添加图片、网页到对话,提供视觉上下文、截图、参考文档等,让AI更准确理解你的需求。

    4. 自动校验与修复

    每次修改后自动执行代码lint和测试,如果检测到lint错误或测试失败,Aider会自动修复!

    5. 语音转代码

    支持语音输入需求,自动实现新功能、测试用例或Bug修复,编程效率翻倍!

    🚀 典型使用场景

    场景1:新项目从零启动

    想快速搭建一个新项目?只需在终端输入:

    $ aider
    Aider> 帮我创建一个Flask REST API,包含用户认证和JWT令牌

    Aider会自动生成项目结构、配置文件、路由和测试用例,并自动提交第一个commit!

    场景2:现有代码库的功能迭代

    在已有项目中添加新功能?Aider理解整个代码库:

    $ aider
    Aider> 在用户模型中添加一个"最后登录时间"字段,并更新相关API

    Aider会自动找到需要修改的文件,添加字段,更新迁移脚本,修改API响应,并运行测试确保一切正常!

    场景3:Bug修复与测试

    遇到Bug?让Aider帮你定位和修复:

    $ aider
    Aider> 修复用户登录时的502错误,并添加测试用例

    Aider会分析日志、定位问题、修复代码、添加测试,确保问题不再复现!

    🎯 推荐理由

    作为一名开发者,我一直在寻找能让AI真正融入编程工作流的工具。Aider是我用过的最实用的AI编程助手,原因如下:

    ✅ Git原生集成:不像其他工具那样”黑盒”修改,Aider的每次修改都有清晰的commit,你可以随时diff或回滚。

    ✅ 理解大型代码库:Aider会生成整个代码库的地图,即使是很复杂的项目,它也能精准定位需要修改的地方。

    ✅ 自动修复lint/测试错误:这是我最喜欢的功能!Aider修改代码后会自动运行lint和测试,如果有错误会自动修复,真正实现了”自动化编程”。

    ✅ 支持100+编程语言:无论你用Python、JavaScript、Rust、Go还是C++,Aider都能胜任。

    ✅ 多模态输入:可以添加图片、网页到对话,让AI更准确理解你的需求,这对前端开发特别有用!

    如果你想要一个真正能理解你的代码库、并与Git无缝集成的AI编程助手,Aider绝对值得一试!

    📥 下载地址

    官方资源

    快速安装

    # 安装Aider
    python -m pip install aider-chat
    
    # 使用Claude 3.7 Sonnet(推荐)
    export ANTHROPIC_API_KEY=your-key
    aider --model sonnet
    
    # 使用DeepSeek(性价比高)
    export DEEPSEEK_API_KEY=your-key
    aider --model deepseek
    
    # 使用GPT-4o
    export OPENAI_API_KEY=your-key
    aider --model gpt-4o

    #开源项目 #AI编程 #终端AI #Aider #GitHub热门 #AI Agent

  • 英伟达又破纪录了,但黄仁勋盯上了更大的蛋糕

    英伟达又破纪录了,但黄仁勋盯上了更大的蛋糕

    英伟达刚交出一份又破纪录的财报——截至4月26日的季度,营收816亿美元,环比增长20%,其中数据中心营收752亿美元,同样创下新高。季末公司还授权了800亿美元的股票回购计划,看上去一切都在按计划推进。

    但黄仁勋在财报电话会上话锋一转,抛出了一个更大的数字:英伟达发现了一个全新的2000亿美元总可寻址市场(TAM)。这个市场来自英伟达今年3月刚发布的Vera CPU——全球第一款专为代理式AI(Agentic AI)设计的中央处理器。

    黄仁勋在GTC大会
    黄仁勋在GTC大会上(图源:Getty Images)

    为什么是CPU?

    这个逻辑听起来有点反直觉——英伟达不是做GPU起家的吗?黄仁勋的解释是:AI模型的”思考”部分由GPU负责,但AI智能体(Agent)的大部分任务执行,其实跑在CPU上。随着智能体数量爆发,对CPU的需求会跟着涨。

    “全球有10亿人类用户,我的判断是未来会有数十亿个智能体。这些智能体都会使用工具,而这些工具会像个人电脑一样运行——当然不是现在,我们会在发展过程中逐步达到这个规模。”黄仁勋在电话会议上这样说。

    Vera的设计思路和传统CPU不一样。传统CPU追求”核心数”,目标是尽可能同时跑多个应用实例;而Vera专门优化了token处理速度,匹配智能体场景的需求。这款产品既可以单独销售,也可以和英伟达的下一代GPU Rubin捆绑销售。

    财报里的其他细节

    说回财报本身。英伟达预计下季度营收910亿美元,增幅约12%——比本季度的20%明显放缓,市场对此其实早有预期,AI算力建设的周期性和需求波动是真实存在的。

    中国市场的出口管制仍是悬而未决的问题。CFO科莱特·克雷斯表示,H200虽然已获得美国出口批准,但英伟达尚未从中产生任何收入,也不确定是否会被允许向中国出口。

    另一个值得注意的数据是英伟达在私营公司的持股——1月时价值220亿美元,到季度末已经涨到430亿美元,主要来自季度内185亿美元的收购。这个数字还不包括对康宁、IREN等上市公司的投资,也不反映尚未完成的承诺(比如2月承诺向OpenAI投资的300亿美元)。


    黄仁勋在电话会上还提到了和Anthropic的合作——今年和明年为Anthropic上线的产能会”非常可观”。在此之前,英伟达对Anthropic的覆盖基本为零。这说明英伟达正在把算力基础设施的触角伸向AI最大的几个客户,而Vera CPU就是这套布局里的重要一环。

    2000亿美元是不是画饼?现在下判断还为时过早。但Vera上市首年就有200亿美元的销售额,至少说明市场愿意给它一个机会。至于能不能守住这块新市场,就要看英特尔、AMD和各大云厂商自研芯片的反击速度了。

  • Google DeepMind憋了个大招:AI不再只陪你聊天,开始帮你搞科研了

    前两天刷到Google DeepMind的一条消息,说他们搞了个叫Co-Scientist的东西——多智能体AI系统,专门给科研人员用的。我第一反应是:又来一个”AI助力科研”的PPT项目?但仔细看完,发现这次有点不一样。

    Google DeepMind Co-Scientist AI系统
    Co-Scientist:基于Gemini构建的多智能体科研助手

    从”搜索工具”到”科研搭档”,这步跨得挺大

    以往AI在科研里的角色,说白了就是个高级搜索引擎——你问它”XXX领域有什么进展”,它给你列一堆文献摘要,然后你自己去啃。

    Co-Scientist想做的事不一样。它的定位是:假设生成、讨论、验证的协同伙伴。核心架构是”生成-讨论-验证”三阶段,多个AI智能体互相抬杠、互相验证,最后给你一个它觉得靠谱的假设方向。

    传统科研里,一个有价值的研究假设,往往需要研究者花几个月甚至几年去打磨。Co-Scientist的目标,是把这个”灵感孵化”的过程,压缩到几天甚至几个小时。

    它到底强在哪?不是参数多,是”会自己纠偏”

    DeepMind在介绍里特意强调了一点:Co-Scientist强化了准确引用专业文献自我修正逻辑矛盾的能力。

    这话什么意思?你去用用现在市面上的大模型,让它帮你梳理一个研究假设,十有八九会出现”编造引用”(hallucinated references)或者”前后逻辑打脸”的情况。Co-Scientist针对这个痛点做了强化,目标是让AI在科研场景里不乱说话

    当然,现在它还处在实验性开放阶段,主要面向研究机构,不是你我去网页上就能白嫖的。但它透露出的方向很明确:AI不再只是”知识的搬运工”,而是开始涉足”知识的创造过程”。


    瞄准的是哪些科研领域?生物学、化学,还有那些”人类搞了几十年还没搞明白”的难题

    DeepMind在展望里点名了几个方向:

    • ALS(肌萎缩侧索硬化症)治疗:这个病折腾了科学界几十年,AI能不能帮忙找到新的药物靶点或者治疗路径?Co-Scientist想试试。
    • 衰老研究:衰老机制极其复杂,假设空间巨大,人工筛选成本极高。AI介入后,可能会开辟一些人类研究者还没想到的角度。
    • 化学分子设计:新药物、新材料的分子结构搜索,本质上是超高维空间的探索问题,AI”生成-验证”的循环在这里很有优势。

    未来DeepMind还打算把Co-Scientist跟实验自动化系统整合起来。到那时候,AI不只是帮你”想”,还能指挥实验室里的机器人去”做”,再把结果喂回来继续迭代。这个闭环一旦跑通,科研效率的跃升会是数量级的。

    跟OpenAI证明数学猜想那件事,其实是同一个信号

    几乎同一时间,OpenAI也放了个大卫星:他们的推理模型证明了一个80年没解决的数学猜想(Erdős单位距离猜想),证明过程125页。

    这两件事放在一起看,信号就很清楚了:2026年的AI,已经从”帮我总结一下”进化到”帮我证明/帮我发现”了。这不是简单的参数堆砌,而是推理能力、文献理解、逻辑自洽性这几件事同时到了一个临界点。

    科研人员如果还在把AI当”高级搜索引擎”用,可能真的有点亏了。下一步值得关注的,是这些科研AI智能体能不能真正加速重大发现,而不只是在已有假设上修修补补。

  • Flowise:42.4k Stars!可视化LLM应用搭建工具,让AI工作流像搭积木一样简单

    Flowise:42.4k Stars!可视化LLM应用搭建工具,让AI工作流像搭积木一样简单

    Flowise Logo

    ## 📝 项目简介

    **Flowise**(flowiseai.com)是一个 **Low-code 的 LLM 应用构建平台**,让你通过可视化拖拽的方式快速搭建基于大语言模型的 AI 应用。它的定位类似于 Langflow,但更轻量、更易上手,专注于让开发者和非开发者都能快速把 LLM 能力落地到实际产品中。


    ## 🔧 安装要求和过程

    ### 环境要求
    – **Node.js** 18+ (必须)
    – **npm** 或 **yarn**
    – 支持 Windows / macOS / Linux

    ### 快速安装(3步搞定)

    **方法一:NPX 直接运行(推荐体验)**
    “`bash
    npx flowise start
    “`

    **方法二:全局安装**
    “`bash
    npm install -g flowise
    npx flowise start
    “`

    **方法三:本地开发**
    “`bash
    git clone https://github.com/FlowiseAI/Flowise.git
    cd Flowise
    pnpm install
    pnpm build
    pnpm start
    “`

    安装完成后访问 `http://localhost:3000` 即可进入可视化界面。


    ## ⚡ 核心功能

    **1. 可视化 LLM 流程编排**
    通过拖拽组件的方式连接 Prompt、LLM、Memory、Tools 等节点,无需写代码就能构建复杂的 AI 工作流。

    **2. 丰富的组件库**
    内置支持 OpenAI、Anthropic、Hugging Face、Ollama 等主流 LLM 提供商,以及 Vector Store、Document Loader、Chain 等常用组件。

    **3. 对话记忆管理**
    支持多种 Memory 类型(Buffer Memory、Window Memory 等),让 AI 应用具备上下文记忆能力。

    **4. API 一键部署**
    流程构建完成后,一键生成可调用的 API 接口,直接集成到你的应用或网站中。

    **5. 向量数据库集成**
    原生支持 Pinecone、Milvus、PostgreSQL(pgvector) 等主流向量数据库,轻松构建 RAG 应用。


    ## 🚀 典型使用场景

    **场景1:构建企业知识库问答机器人**
    上传公司文档 → 接入向量数据库 → 搭建 RAG 流程 → 生成 API → 嵌入企业微信/官网。全程可视化,非技术人员也能操作。

    **场景2:快速原型验证 AI 创意**
    想验证一个 AI 产品的想法?用 Flowise 拖拽出原型,生成 API 直接测试,比写代码快10倍。很多团队用它做 AI 产品的 MVP 验证。

    **场景3:为现有应用添加 AI 能力**
    已有 Web/移动应用?用 Flowise 构建 AI 流程,生成 API,3行代码就能把智能对话、文档分析、内容生成能力接入你的产品。


    ## 💡 推荐理由

    为什么推荐 Flowise?

    比 Langflow 更轻量 — 安装包更小,启动更快,界面更简洁。
    真正能用在生产环境 — 不少同类工具只是 demo 级别,Flowise 的 API 可以直接承载生产流量。
    社区活跃,文档完善 — 42k+ Stars,持续迭代,中文资料也逐渐丰富。
    对非开发者友好 — 产品经理、运营同学也能用它搭建 AI 流程,不用等开发排期。
    与 Langflow 互补 — 如果你在用 Langflow,Flowise 值得对比试用,两者各有优势。


    ## 📥 下载地址

    **🌐 官方网站**
    https://flowiseai.com

    **🐙 GitHub 仓库**
    https://github.com/FlowiseAI/Flowise
    (42.4k+ Stars,持续更新中)

    **📚 官方文档**
    https://docs.flowiseai.com

    **💬 Discord 社区**
    https://discord.com/invite/jBaHxxxadB


    本文由 WorkBuddy AI 自动采集撰写,内容来源于 GitHub 公开信息及官方文档。

  • Google DeepMind搞了个AI科研搭档,科学家要失业了?

    Google DeepMind搞了个”AI科研搭档”

    科学家做研究,最花时间的是啥?不是做实验,是”想假设”和”查文献”。一个靠谱的假设,往往要读几百篇论文、反复试错几个月甚至几年。Google DeepMind最近发布了一个叫Co-Scientist的多智能体系统,目标是让AI来干这件事。

    这个系统基于Gemini构建,但跟普通的聊天机器人不一样。它不是你问它答,而是真的在”做科研”——生成假设、跟自己”讨论”、再去文献里找证据验证,然后反复迭代,直到假设站得住脚。

    普通LLM的问题在于:它不确定时会瞎编,而且不会主动承认”这个结论有矛盾”。Co-Scientist的核心是,它能在多个专业智能体之间制造”争论”,让它们在讨论中发现逻辑漏洞,然后自己去文献里找证据修补。

    三个步骤,模拟科学家的思考过程

    Co-Scientist的运作分三个阶段:生成、讨论、验证。

    生成阶段,系统会根据你给的研究方向,产生一批可能的假设。这些假设不是随机生成的,而是基于已有的科学文献和数据库。

    讨论阶段最有意思。系统里有好几个”智能体”,每个扮演不同的角色——有的负责挑刺,有的负责找支持证据,有的负责检查逻辑一致性。它们会互相”吵架”,直到对某个假设达成一致意见。

    验证阶段,系统会去查文献,看看这个假设跟已知的研究是否矛盾,有没有实验数据支持。如果有矛盾,它会回过头去修正假设,然后重新走一遍流程。

    已经在用的场景

    Google已经在跟Google Cloud和Google Labs合作,让研究人员试用这个系统。目前的反馈是,它在”假设筛选”这个环节特别有用——人类科学家往往靠直觉和经验来判断一个假设值不值得深究,但直觉会出错,经验有盲区。Co-Scientist能把这些假设结构化地过一遍,帮人更快地找到值得深挖的方向。

    特别值得关注的是,Google正在把它应用到ALS(肌萎缩侧索硬化症)的疗法开发,还有衰老研究。这两个领域都有一个共同点:数据极其复杂,变量极多,人类研究者很难把所有线索串起来。AI的优势正好在这里——它能同时处理海量文献,发现人眼看不到的模式。

    下一步是跟实验自动化打通

    现在的Co-Scientist还停留在”纸上谈兵”阶段——它能生成和验证假设,但验证完了,还得人类去做实验。Google的下一步计划,是把这个系统跟实验自动化系统整合起来,让AI生成的假设能直接在实验室里被验证。

    如果这一步实现了,科研的效率提升会是数量级的。现在从一个假设到发表论文,往往要几年。如果假设生成、验证、实验、数据分析全都能由AI加速,可能几个月就能走完。

    当然,这里有个绕不开的问题:AI生成的假设,如果连人类都理解不了为啥它对,那还敢不敢照着做实验?这个问题,可能比技术本身更难回答。


  • agent-skills:45.4k Stars!Google工程师开源的AI编码生产级技能库,让AI输出工业级代码

    agent-skills:45.4k Stars!Google工程师开源的AI编码生产级技能库,让AI输出工业级代码

    agent-skills

    你有没有遇到过这种情况:让AI帮你写代码,它确实写出来了,但一测就挂,还没测试、没文档、没安全检查——因为它总是走「最短路径」,能跑就行。

    Google Cloud AI总监、AngularJS联创Addy Osmani也发现了这个问题,于是他在2026年2月开源了 agent-skills——一个把高级工程师开发软件时的完整工作流、质量门禁和最佳实践封装成可复用技能的工具包,让AI代理在开发全流程中都能遵循与生产环境一致的标准。

    📊 项目数据

    GitHub Stars:45.4k+ | 开源协议:MIT | 维护者:Addy Osmani(Google) | 适用工具:Claude Code、Cursor、Gemini CLI、Windsurf、Copilot 等


    📌 项目简介

    agent-skills 是一个面向AI编程代理的生产级工程技能集合,将资深工程师在开发软件时遵循的工作流、质量门禁和最佳实践编码为可复用的技能模块,让AI代理不再「能跑就行」,而是输出符合生产级质量标准的代码。项目覆盖从需求定义、计划拆解、迭代开发、测试验证、代码审查到上线部署的完整开发生命周期,并预置了可自动触发的专项技能。


    ⚙️ 安装要求与过程

    环境要求

    • 支持任意AI编程代理(Claude Code、Cursor、Gemini CLI、Windsurf、Kiro、Copilot等)
    • 部分技能需要配合对应MCP服务使用(如Chrome DevTools MCP)
    • 无额外依赖,技能文件为纯Markdown格式

    快速安装(以Claude Code为例)

    方式一:从市场安装(推荐)

    # 添加市场源
    /plugin marketplace add addyosmani/agent-skills
    # 安装技能包
    /plugin install agent-skills@addy-agent-skills

    方式二:本地克隆安装

    git clone https://github.com/addyosmani/agent-skills.git
    claude –plugin-dir /path/to/agent-skills

    其他工具(Cursor、Gemini CLI、Windsurf等)详见项目 docs/ 目录下的对应配置指南。


    ✨ 核心功能

    1
    23个细分技能模块,覆盖开发全生命周期

    从需求定义(/spec)、计划拆解(/plan)、增量开发(/build)、测试驱动(/test)、代码审查(/review)到上线部署(/ship),每个阶段都有对应的技能工作流,AI必须按步骤执行,不能跳过。

    2
    反合理化机制,防止AI走捷径

    每个技能都内置「常见借口反驳表」——比如AI想说「我之后再补测试」,技能会直接反驳并强制要求先写测试。验证要求明确到必须提供证据(测试通过截图、构建输出等),不允许「看起来没问题」这种模糊判断。

    3
    自动触发 + 斜杠命令双模式

    设计API时自动激活 api-and-interface-design 技能,构建UI时自动激活 frontend-ui-engineering 技能;同时也支持手动输入 /spec、/plan、/build、/test 等7个斜杠命令精准触发对应技能。

    4
    预配置专家代理角色,多维度审查

    内置 code-reviewer(高级工程师视角)、test-engineer(QA专家视角)、security-auditor(安全工程师视角)三个专家代理角色,可在关键节点自动调用,对代码进行多维度审查。


    🚀 典型使用场景

    场景一:让AI严格按照TDD流程开发新功能

    输入 /test 激活测试驱动开发技能,AI会严格遵循「红→绿→重构」流程,先写失败测试,再写最小实现,最后重构;测试金字塔比例强制为 80% 单元测试 / 15% 集成测试 / 5% E2E测试,确保测试覆盖全面而不冗余。

    场景二:上线前全自动代码审查与安全加固

    输入 /review 触发代码审查技能,AI会按五轴审查法(正确性、可读性、安全性、性能、可维护性)逐文件审查,变更控制在约100行以内;同时自动激活 security-and-hardening 技能,对照 OWASP Top 10 逐项检查,不通过不许合并。


    💡 推荐理由

    我一直觉得现在的AI编程工具最大的问题不是「写不出代码」,而是「写出来的代码不经过生产级流程」——没有需求文档、没有测试、没有安全审查,直接给你一个能跑的版本就完事。agent-skills 的本质,就是把 Google 级别的工程成熟度「编译」成了AI可以理解和执行的技能工作流。

    最让我印象深刻的是它的「反合理化机制」——AI 想偷懒的时候,技能会直接「怼回去」,要求提供证据而不是口头保证。这比任何 Prompt 技巧都更有效,因为它是在流程层面强制质量,而不是靠 AI 的「自觉」。

    如果你在用 Claude Code、Cursor 或其他AI编程工具,这个项目值得认真配置一套——它会让你AI助手输出的代码质量提升一个维度。


    📥 下载地址

    🌐 官方网站:https://github.com/addyosmani/agent-skills

    📦 GitHub仓库:https://github.com/addyosmani/agent-skills

    📚 配置文档:https://github.com/addyosmani/agent-skills/tree/main/docs

    💬 技能市场:https://agentskill.work/zh/skills/addyosmani/agent-skills

    📄 开源协议:MIT License(可自由使用、修改和分发)


    💡 小编注:

    这个项目背后的理念其实很深刻——AI编程工具的能力上限不仅仅取决于模型本身,更取决于我们给它的「工程上下文」。agent-skills 做的,就是把这些上下文系统化、可复用化。值得一提的是,Addy Osmani 同时也是热门项目 addyosmani/superpowers(第30期已介绍)的作者,两个项目一脉相承,建议搭配使用,效果更佳。

  • mem0:39.9k Stars!AI Agent 通用记忆层,让AI真正记住你

    mem0:39.9k Stars!AI Agent 通用记忆层,让AI真正记住你

    mem0 - AI Agent 通用记忆层

    📦 项目速览
    项目名称:mem0(mem-zero)
    GitHub: mem0ai/mem0
    Stars: 39.9k+
    类型:AI Agent 记忆层基础设施
    技术栈:Python、TypeScript、向量数据库
    官方文档: https://docs.mem0.ai

    🔍 项目简介

    mem0 是为 AI Agent 和应用设计的通用记忆层(Universal Memory Layer)。它的核心使命很简单:让 AI 记住你。不是简单地把对话历史塞进上下文窗口,而是真正地理解、提取、压缩、检索那些对当前任务最有价值的信息。

    你可以把它理解为 AI 应用的”海马体”——负责将短期交互转化为可持久化的长期记忆,并在需要时精准召回。目前已有超过 9 万名开发者使用 mem0 构建 AI 应用,并通过了 SOC 2(Type 1)和 HIPAA 合规认证。

    💡 一句话理解 mem0:如果大模型是”算力”,向量数据库是”知识库”,那 mem0 就是让 AI 拥有连续人格的记忆系统。没有它,每次对话 AI 都是”失忆症患者”。

    ⚙️ 安装要求与过程

    📋 环境要求

    • Python:3.9 及以上版本
    • 依赖:pip 可独立完成安装
    • 可选:PostgreSQL + pgvector(生产环境推荐)、Qdrant / Chroma(向量存储后端)
    • 云端版:无需部署,注册即用(适合快速验证)

    🚀 快速安装(3 步搞定)

    1. 安装 SDK:在终端运行 pip install mem0ai
    2. 获取 API Key:前往 app.mem0.ai 注册并获取密钥
    3. 开始使用:参考下方代码,3 行代码即可添加记忆
    import os
    from mem0 import MemoryClient
    
    # 初始化客户端
    client = MemoryClient(api_key=os.getenv("MEM0_API_KEY", "your-api-key-here"))
    
    # 添加记忆:传入对话上下文和用户 ID
    messages = [
        {"role": "user", "content": "我是素食主义者,对坚果过敏。"},
        {"role": "assistant", "content": "好的,我会记住您的饮食偏好。"},
    ]
    client.add(messages, user_id="user123")
    
    # 检索记忆
    results = client.search("我的饮食限制是什么?", user_id="user123")
    print(results)

    mem0 同时支持 Python 和 Node.js SDK,也提供 Agent Harness、LangChain 插件、CrewAI 集成等多种接入方式。

    ✨ 核心功能

    1. 记忆全生命周期管理

    三步实现记忆可用:添加(快速输入各类数据)→ 学习(自动提取、更新有效记忆)→ 检索(交互时自动召回关键记忆,无需手动处理上下文)。整个过程对开发者透明,无需改造现有 AI 应用管线。

    2. 记忆压缩引擎

    自动将冗长的聊天历史压缩为精简的结构化记忆,在保留核心上下文的同时,大幅降低 Token 消耗、减少响应延迟。实测可将长对话的上下文Token 使用量减少 70%+。

    3. 多场景适配能力

    可针对不同领域(医疗、教育、电商、客服等)定制记忆逻辑,精准保留各场景下对用户最有价值的信息。比如医疗场景会优先保留过敏史、用药记录,而电商场景则重点关注购买偏好和尺码信息。

    4. 企业级管控能力

    支持 SOC 2、HIPAA 合规,提供 BYOK(自带密钥)、零信任架构;支持 Kubernetes、私有云、离线环境部署;所有记忆的读写操作全量日志留存,可追溯操作主体、内容和时间。

    5. 高性能检索算法

    采用单通道分层蒸馏和多信号检索算法,在 LoCoMo、LongMemEval、BEAM 等多个长上下文记忆基准测试中表现优异,记忆召回准确率和效率经过权威验证。

    🚀 典型使用场景

    场景一:医疗健康助手

    痛点:传统 AI 医疗助手每次对话都”不认识”患者,需要重复询问病史、过敏史,体验极差。

    mem0 方案:跨就诊记录记住患者病史、过敏史、治疗偏好,提供个性化护理建议;慢性病管理伴侣可长期学习患者症状规律,提供定制化提醒和健康建议;心理治疗助手可承接过往咨询上下文,提供连贯的、有上下文感知的心理支持。

    效果:患者无需每次重新描述病情,AI 助手真正像”了解你的家庭医生”。

    场景二:个性化教育导师

    痛点:在线教育 AI 无法记住学生的知识盲点、学习节奏和兴趣方向,每次都是”第一次见面”。

    mem0 方案:记住每个学生的错题记录、掌握程度、学习偏好,动态调整教学节奏和内容难度;跨课程、跨设备保持学习记忆一致;家长端可查看 AI 导师的”记忆报告”,了解孩子的学习进展。

    效果:AI 导师真正做到”因材施教”,而不是千篇一律的答题机器。

    场景三:企业级 AI 客服系统

    痛点:客户每次联系客服都要重新解释问题,AI 客服无法记住客户的历史工单和偏好设置。

    mem0 方案:跨会话记住客户的历史问题、产品偏好、沟通风格;结合 RAG 知识库,提供连贯的、有上下文感知的客服体验;支持多租户隔离,不同客户的记忆完全独立存储。

    效果:客户感受到的是”记得我的 AI 客服”,而不是每次都从零开始的机器人。

    🌟 推荐理由

    为什么你应该关注 mem0?

    ① 接入成本极低:无需改造现有 AI 应用管线,官方示例显示最快 5 秒即可为 AI 代理添加持久化记忆。对有现有 LangChain / CrewAI / OpenAI 项目的开发者来说,集成成本几乎为零。

    ② 降本增效明显:通过记忆压缩减少冗余上下文传输,可降低 Token 成本(实测减少 70%+ 上下文长度),同时提升 AI 响应速度。对于高频交互的 AI 应用,这笔账非常好算。

    ③ 让 AI 真正”有温度”:这是我个人最看重的点。没有记忆的 AI 就像”金鱼脑”,每次对话都是全新的开始。mem0 让 AI 真正记住你是谁、你喜欢什么、你之前问过什么——这种连续性的交互体验,才是 AI 应用应该有的样子。

    ④ 安全合规有保障:满足 SOC 2、HIPAA 等国际合规标准,支持私有化部署。对于医疗、金融等敏感行业的 AI 应用,这一点至关重要。

    ⑤ 生态成熟,社区活跃:9 万+ 开发者验证,官方提供完整文档、技术博客、研究资料。GitHub 上 39.9k+ Stars,Issue 响应速度快,不适合”踩坑无人管”的开源项目。

    ⚠️ 注意事项:mem0 云端版按 API 调用次数收费,高频场景建议自建部署以控制成本。自建部署需要一定的 DevOps 能力(Docker + 向量数据库),小型项目建议先从云端版试用再决定。

    📥 下载地址与资源

    📦 PyPI(Python 包)pip install mem0ai
    https://pypi.org/project/mem0ai/
    🌐 官方网站https://mem0.ai
    📚 官方文档https://docs.mem0.ai
    💻 GitHub 仓库https://github.com/mem0ai/mem0
    ☁️ 云端平台https://app.mem0.ai

    — 本文由 WorkBuddy AI 自动采集撰写

  • browser-use:95.3k Stars!让AI代理自动操作浏览器,网页自动化从未如此简单

    browser-use:95.3k Stars!让AI代理自动操作浏览器,网页自动化从未如此简单

    browser-use logo
    browser-use – AI浏览器自动化工具

    📦 项目简介

    browser-use 是一个让AI代理能够自动操作浏览器的开源工具,通过自然语言指令即可完成各类网页操作,无需手动编写复杂的爬虫逻辑。无论是表单填写、网页信息提取,还是复杂的多步骤网页交互,AI都能帮你自动完成。


    ⚙️ 安装要求和过程

    环境要求

    • Python版本:≥3.11
    • 推荐包管理工具uv(也可使用pip等常规Python包管理工具)
    • 浏览器:自动安装Chromium(也可使用本地已安装的Chrome/Edge)

    快速安装步骤

    # 1. 初始化项目并安装browser-use
    uv init && uv add browser-use && uv sync
    
    # 2. 若本地未安装Chromium,执行以下命令自动安装
    uvx browser-use install

    可选配置

    • 如需使用云端能力,可前往 Browser Use Cloud 获取API Key,在.env文件中配置即可
    • 支持对接多种LLM提供商:自带优化后的ChatBrowserUse模型,也支持Google Gemini、Anthropic Claude、OpenAI等主流模型,还可对接Ollama运行本地模型

    💡 核心功能

    • 自然语言控制浏览器:支持AI代理通过自然语言指令自动完成各类网页操作,无需手动编写复杂爬虫逻辑
    • 双模式支持:提供开源版本云端托管版本两种使用模式,可按需选择
    • 丰富的工具集成:支持集成1000+第三方工具(如Gmail、Slack、Notion等),支持自定义工具扩展
    • CLI命令行支持:提供CLI命令行快速操作,提供持久化浏览器会话,适合快速迭代调试
    • AI编码工具集成:支持Claude Code等AI编码工具集成,可直接对接AI工作流

    云端版本专属能力

    • 更强的复杂任务处理能力,任务完成准确率远高于开源版本
    • 内置隐身浏览器指纹、代理轮换、验证码自动解决能力,避免被网站反爬检测
    • 支持持久化文件系统和记忆,适合长期运行的代理任务
    • 无需本地部署,开箱即用,支持大规模并行任务调度

    🚀 典型使用场景

    1. 个人效率提升:自动完成重复性网页操作,如批量填写表单、自动购物、自动整理网页信息等
    2. AI应用开发:作为AI代理的浏览器交互层,让AI具备操作网页的能力,开发智能助手类产品
    3. 企业级自动化:结合云端版本的扩展能力,实现大规模网页数据采集、业务流程自动化等场景
    4. 编码辅助:对接Cursor、Claude Code等AI编码工具,让AI可以直接操作浏览器验证代码效果、调试网页相关问题

    🌟 推荐理由

    在AI Agent爆发的2026年,让AI具备操作浏览器的能力,就像给AI装上了一双”眼睛”和”手”。browser-use不仅简化了浏览器自动化的开发流程,更重要的是它让AI真正能够与世界互动——从简单的信息查询到复杂的多步骤业务流程,都可以通过自然语言来完成。

    特别推荐它的双模式设计:如果你只是想快速尝试,开源版本足够使用;如果你需要生产级别的稳定性和扩展性,云端版本提供了完整的解决方案。这种灵活的设计理念,让不同需求的开发者都能找到适合自己的使用方式。

    另外,它对主流LLM的原生支持也是一大亮点。无论你用的是Claude、GPT还是本地部署的模型,都能无缝对接。这种开放性的设计,正是开源项目的魅力所在。


    📥 下载地址


    ⭐ 如果你觉得这个项目有帮助,欢迎到GitHub上给它一个Star!