标签: AI Agent

  • 谷歌I/O 2026倒计时:Gemini轻量升级,AI眼镜重启硬件线

    谷歌I/O 2026倒计时:Gemini轻量升级,AI眼镜重启硬件线

    谷歌I/O 2026开发者大会
    2026年谷歌I/O开发者大会将于5月19-20日举行

    2026年谷歌I/O开发者大会今天(5月20日)正在加州山景城举行。这次大会的核心看点很明确:新一代Gemini模型和Android XR智能眼镜。距离上次谷歌发布Gemini 3.1 Pro已经过去三个月,业界对新版本的期待值拉满。

    Gemini模型不会跨越式迭代

    综合多方消息,谷歌这次大概率不会发布Gemini 4.0。按照约3-4个月的迭代节奏,上一代Gemini 3是2025年11月发布的,到现在才半年。更可能的情况是推出Gemini 3.2或3.5,性能大致与OpenAI近期发布的GPT-5.5相当。

    新一代模型的技术突破方向值得关注——它侧重Agent任务能力提升,而不是推理能力。具体来说,新模型预计将大幅提升上下文处理能力,并着重优化端侧轻量化表现。这意味着AI功能能够适配更多中低端安卓机型,真正服务于谷歌庞大的移动生态。

    谷歌一直想把Gemini更深入地融入其生态系统。这次大会上,我们可能会看到Gemini从独立App升级为安卓底层的原生能力。

    智能眼镜产品线重启

    智能眼镜是本届大会最受瞩目的硬件产品。距离谷歌首次推出Google Glass已过去十余年,现在谷歌正与三星、Gentle Monster和Warby Parker合作开发两款AI眼镜。

    一款是类似Meta Ray-Ban的无屏AI眼镜,主打轻量化与日常佩戴,支持免提唤醒Gemini助手。另一款则更为前沿,配备镜片内显示技术,可将导航、实时翻译等信息直接投射在用户视野中。两款眼镜均基于Android XR操作系统。


    生态整合比产品更新更关键

    除了具体的产品和模型,本次大会还将展示谷歌在AI生态领域的战略布局。Android 17系统有望迎来变革,Beta版或将公布,开放Gemini Nano端侧AI能力,支持第三方开发离线AI应用。

    传闻中的”Gemini Spark”Agent平台可能会在大会上亮相。这个系统旨在主动运行、处理跨应用和服务的任务,而不是等待用户指令。它能够访问跨应用、浏览会话和用户活动的数据,这将是AI从工具升级为系统层的关键一步。

    谷歌母公司Alphabet此前预计2026财年资本支出将达到1750亿至1850亿美元,这些资金将重点投向大规模数据中心扩建与专用AI算力部署。重金押注AI,谷歌亟需证明其庞大的AI投入能够通过搜索广告、云服务和订阅带来回报。

  • RAGFlow:80.8k Stars!开源RAG引擎,让AI精准理解你的文档

    RAGFlow:80.8k Stars!开源RAG引擎,让AI精准理解你的文档

    📚 RAGFlow
    80.8k Stars!开源RAG引擎,让AI精准理解你的文档
    ⭐ 80.8k Stars
    🔧 RAG引擎
    📄 深度文档理解

    💡 项目简介

    RAGFlow 是一款基于深度文档理解构建的开源 RAG(检索增强生成)引擎,由 InfiniFlow 团队开发。它可以为各种规模的企业及个人提供一套精简的 RAG 工作流,把”大模型+企业知识库”的门槛直接干到地面。

    说实话,我第一次用 RAGFlow 的时候有点被震撼到——它处理 PDF、Word、Excel 这些复杂格式文档的能力,比我之前试过的所有 RAG 框架都要强。关键是它有可视化分块界面,你能看到每个文本块是怎么切的,哪里出了问题直接改,不用盲目调参。

    🚀 核心功能
    📑 深度文档理解
    支持 PDF、Word、Excel、PPT、图片、扫描件等复杂格式,能从非结构化数据中提取精准知识。表格、图表、多栏布局都能正确解析,真正做到了”看懂”文档。

    🔍 高质量RAG管道
    内置多路召回 + 融合重排,支持可视化文本分块,生成结果附带可追溯的引用来源。不再出现”幻觉”回答,每个答案都有据可依。

    🤖 Agent + MCP 支持
    内置 Agent 工作流,支持 MCP 协议接入,可对接 OpenClaw 等 AI Agent 平台。还能接入 Confluence、Notion、Google Drive 等数据源,一键同步知识库。

    🔧 多种部署方式
    支持 Docker 一键部署(推荐),也支持源码启动。兼容 DeepSeek v4、Gemini 3 Pro、GPT-5 系列等主流大模型,自带 embedding 模型。

    ⚙️ 安装要求与过程
    环境要求
    • CPU ≥ 4核
    • 内存 ≥ 16 GB
    • 磁盘 ≥ 50 GB
    • Docker ≥ 24.0.0 & Docker Compose ≥ v2.26.1
    • 系统参数要求:vm.max_map_count ≥ 262144

    # 1. 克隆仓库
    git clone https://github.com/infiniflow/ragflow.git
    cd ragflow/docker

    # 2. 启动服务(CPU版)
    docker compose -f docker-compose.yml up -d

    # 3. 查看日志确认启动成功
    docker logs -f docker-ragflow-cpu-1

    # 4. 浏览器访问 http://服务器IP
    # 出现 Running on all addresses 即成功!

    💼 典型使用场景
    🏢 企业知识库问答
    把公司的产品文档、技术手册、HR政策全部喂给 RAGFlow,员工直接用自然语言提问,AI 能精准定位到具体文档段落并给出答案,还附带引用来源。比传统关键词搜索强太多了。

    📚 个人学习助手
    上传教材、论文、技术书籍,让 AI 帮你梳理知识点、回答思考题。RAGFlow 对 PDF 的解析特别到位,公式、表格、图表都能正确识别,学习效率高了不少。

    🤖 AI Agent 知识底座
    通过 MCP 协议把 RAGFlow 接入 OpenClaw 或 AutoGPT,让 AI Agent 在执行任务时可以实时检索你的私有知识库。相当于给 Agent 装了一个”外挂大脑”。

    🌟 推荐理由

    我觉得 RAGFlow 最打动我的一点,是它把”可视化”做到了极致。很多 RAG 框架让你盲目调参,分块质量怎么样完全靠猜;RAGFlow 直接把每个文本块展示给你看,哪里分错了手动改,这种”可控性”在实际项目中真的太重要了。

    另外它的文档解析能力确实一流,我试过把一本 500 页的技术书丢进去,公式、代码块、表格全都识别对了,召回准确率相当能打。如果你正在搭建企业知识库或者给 AI Agent 接知识底座,RAGFlow 绝对值得一试。⭐

    📌 本文由 AI 自动采集整理,更多开源项目介绍持续更新中…

    Tags: RAGFlow · RAG · 知识库 · 开源AI

  • AutoGPT:182k Stars!开源自主AI智能体平台,让AI从对话进化到自主执行

    AutoGPT:182k Stars!开源自主AI智能体平台,让AI从对话进化到自主执行

    AutoGPT 开源自主AI智能体平台

    AutoGPT – 自主AI智能体平台

    📌 项目简介

    AutoGPT 是由 Significant-Gravitas 团队开发的开源自主AI智能体(AI Agent)平台,支持目标自主分解、多工具调用、长期记忆与自我反思,可低代码构建自动化工作流,让你只需给出一个目标,AI就能自动拆解任务并自主执行完成。

    182k+
    GitHub Stars

    Python
    主要语言

    MIT
    开源协议

    ⚙️ 安装要求与过程

    系统要求

    项目 要求
    操作系统 Linux / macOS / Windows(WSL2)
    CPU 至少4核
    内存 16GB 以上
    存储 10GB 可用空间
    必备软件 Git、Docker、Docker Compose、Python 3.10+

    快速安装(一键脚本)

    # macOS / Linux
    curl -fsSL https://setup.agpt.co/install.sh -o install.sh && bash install.sh
    
    # Windows (PowerShell)
    powershell -c "iwr https://setup.agpt.co/install.bat -o install.bat; ./install.bat"

    手动部署(Docker方式)

    # 1. 克隆项目
    git clone https://github.com/Significant-Gravitas/AutoGPT.git
    cd AutoGPT
    
    # 2. 复制环境配置
    cp .env.template .env
    # 编辑 .env 配置 API Key
    
    # 3. Docker启动
    docker-compose up -d
    
    # 4. 访问 http://localhost:8000

    ✨ 核心功能

    🎯 自主目标分解
    输入复杂目标后自动拆解为可执行子任务,动态调整执行策略,无需人工梳理流程。

    🧠 多层记忆系统
    短期上下文 + 长期向量数据库记忆结合,沉淀历史经验,避免重复劳动。

    🔧 丰富工具生态
    内置联网搜索、文件读写、代码执行、浏览器自动化等工具,支持插件扩展。

    🔄 自我反思优化
    执行后自动评估效果,主动修正方案,形成「思考→执行→观察→反思」闭环。

    🎨 低代码可视化
    Web端可视化控制台,拖拽式搭建智能体,无需深厚编程基础即可上手。

    🤖 多模型兼容
    原生支持 GPT-4、Claude,也可对接 LLaMA、Mistral 等开源大模型。

    🚀 典型使用场景

    📝 场景一:内容创作自动化

    自动撰写 SEO 文章、营销文案、产品介绍、技术博客;生成短视频脚本、直播话术、公众号推文。只需给出主题和目标关键词,AutoGPT 自动完成资料检索、内容撰写、SEO 优化的全流程。

    📊 场景二:市场与行业研究

    自动检索行业动态、竞品信息、政策法规;整理数据、汇总信息、生成分析简报。非常适合需要定期产出行业分析报告的场景,大幅节省人工调研时间。

    💻 场景三:软件开发辅助

    自动生成项目框架、接口文档、单元测试;辅助调试代码、定位 Bug、优化性能。配合 GitHub Actions 可实现自动化 CI/CD 流程,是开发者的得力助手。

    💡 推荐理由

    说实话,我觉得 AutoGPT 最吸引人的地方在于——它让 AI 从「问答工具」真正进化成了「自主执行的智能体」。传统 ChatGPT 需要你一句一句引导,而 AutoGPT 只需要一个目标,它就能自己拆解、自己执行、自己反思优化。

    低代码可视化界面也让门槛大大降低,不需要是 Python 大神才能玩转。加上活跃的开源社区和丰富的插件生态,扩展起来非常方便。

    如果你对流式 AI Agent 开发感兴趣,或者想搭建一套自动化工作流,AutoGPT 绝对值得深入研究。182k+ Stars 不是偶然,它代表了 AI Agent 自主执行方向的最高热度。

    📥 下载地址


  • 微软AI Agents for Beginners:63k Stars!微软官方AI智能体入门课程,12节课带你从零到生产

    微软AI Agents for Beginners:63k Stars!微软官方AI智能体入门课程,12节课带你从零到生产

    📖 项目简介

    这是微软官方推出的AI智能体零基础入门免费课程,包含12+节核心课程,覆盖从基础概念到生产落地的全流程。支持50+种语言本地化,每节课配套文字教程、视频讲解、可运行代码示例和扩展学习资源,是系统学习AI智能体开发的最佳起点。

    63.2k+
    GitHub Stars

    🔧 安装要求和过程

    环境要求

    • Python 3.8+ 环境
    • Azure账户(用于Microsoft Foundry和Azure AI Foundry Agent Service V2)
    • Git(用于克隆仓库)

    快速安装步骤

    # 稀疏克隆(推荐,不包含50+语言翻译文件)
    git clone --filter=blob:none --sparse https://github.com/microsoft/ai-agents-for-beginners.git
    cd ai-agents-for-beginners
    git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
    
    # 安装依赖
    pip install -r requirements.txt
    
    # 配置环境变量(复制示例文件)
    cp .env.example .env
    # 编辑.env文件,填入Azure/OpenAI配置
    ⚠️ 注意:如果是首次接触生成式AI开发,建议先学习微软出品的《Generative AI For Beginners》21节入门课打好基础。

    ✨ 核心功能

    🎓 完整课程体系

    12+节核心课程,从AI智能体介绍、设计模式到生产环境部署,每节课包含文字教程+视频+代码示例。

    🌍 多语言支持

    支持50+种语言本地化,包含中文(简体、繁体)、日语、韩语、法语、德语等主流语言。

    🔌 技术栈兼容

    优先采用微软智能体技术栈,同时支持OpenAI兼容的第三方提供商(如MiniMax,支持204K token上下文)。

    🛡️ 生产级内容

    覆盖可信智能体构建、内存管理、上下文工程、安全防护、部署可扩展智能体等实战内容。

    🎯 典型使用场景

    场景1:零基础系统学习AI智能体开发

    适合没有AI智能体开发经验的开发者,通过12+节课程系统学习概念、框架、设计模式等入门知识,每节课都有可运行的代码示例。

    场景2:学习智能体从开发到生产落地的全流程

    包含可信智能体构建、内存管理、上下文工程、安全防护等实战内容,帮助开发者掌握生产级AI智能体的开发技能。

    场景3:熟悉微软智能体技术栈

    学习Microsoft Agent Framework、Azure AI Foundry等微软官方智能体框架的使用,适合需要在Azure平台部署AI智能体的开发者。

    💡 推荐理由

    说实话,如果你想要系统学习AI智能体开发,这门课程绝对是最佳起点。我特别喜欢它的几个设计:

    • 官方出品,质量有保障:微软官方团队维护,内容紧跟技术前沿,包含最新的MCP、A2A、NLWeb等智能体协议。
    • 理论与实践结合:每节课不仅有文字教程,还有配套视频讲解和可运行的Python代码示例,学完就能动手实践。
    • 多语言支持:支持50+种语言,中文开发者可以直接看中文教程,降低学习门槛。
    • 社区活跃:有官方Discord交流频道和开发者反馈论坛,遇到问题可以快速获得帮助。

    我觉得这门课程最值得称赞的是它的系统性——从基础概念到生产落地,从单智能体到多智能体协作,从设计模式到安全防护,几乎覆盖了AI智能体开发的方方面面。无论你是刚入门的新手,还是有一定经验的开发者,都能从中获得价值。

    📥 下载地址


    📌 数据来源:GitHub + 微软官方文档 | 更新时间:2026-05-18

  • OpenClaw:373k Stars!登顶GitHub的AI Agent,让AI从对话进化到执行

    OpenClaw:373k Stars!登顶GitHub的AI Agent,让AI从对话进化到执行

    🔥 302k+ Stars!登顶GitHub的全球最热AI Agent项目

    OpenClaw Logo

    OpenClaw – 个人开源AI助手

    📌 项目简介

    OpenClaw 是一款登顶GitHub全球榜首的开源AI Agent项目(373k+ Stars),它将AI从”对话生成”升级为”任务执行”,可以像私人助理一样直接操作你的电脑、浏览器和文件系统,把自然语言指令转化为实际行动。

    💻 安装要求与过程

    环境要求:

    • Node.js 20+(推荐Node.js 20 LTS)
    • Windows用户需要WSL2(强烈推荐)
    • 开发环境需要pnpm包管理器

    快速安装步骤:

    # 使用npm全局安装
    npm install -g openclaw@latest
    
    # 或使用pnpm
    pnpm add -g openclaw@latest
    
    # 运行引导向导,设置守护进程
    openclaw onboard --install-daemon
    

    开发环境搭建:

    # 克隆仓库
    git clone https://github.com/openclaw/openclaw.git
    cd openclaw
    
    # 安装依赖(仅支持pnpm)
    pnpm install
    
    # 初始化本地配置
    pnpm openclaw setup
    
    # 启动开发服务器(支持热重载)
    pnpm gateway:watch
    

    ✨ 核心功能

    1. 本地优先架构:所有数据存储在本地设备,无需强制上云,隐私完全自主掌控
    2. 20+平台无缝接入:支持WhatsApp、Telegram、Slack、Discord、微信、QQ等主流通讯平台
    3. 多Agent路由:不同渠道的消息可以路由到独立的Agent,每个Agent拥有独立工作空间和会话上下文
    4. 语音交互:支持macOS/iOS语音唤醒、Android连续对话模式,内置ElevenLabs TTS
    5. Live Canvas:Agent驱动的可视化工作空间,支持A2UI(Agent-to-UI)协作执行任务

    🎯 典型使用场景

    场景1:跨平台个人助理
    通过现有通讯应用(如WhatsApp、Telegram)与AI助手交互,无需切换APP即可获取答案、设置提醒、起草内容、自动化日常任务。

    场景2:隐私优先的自托管方案
    在企业或家庭服务器上运行OpenClaw,所有对话和任务数据完全保存在本地,满足对数据主权有严格要求的场景(如医疗、金融、法律)。

    场景3:自定义工作流自动化
    利用cron任务、webhooks和自定义技能,实现每日天气预报、日历提醒、社交媒体定时发布等重复任务的自动化执行。

    💡 推荐理由

    我觉得OpenClaw最厉害的地方在于它真正实现了”AI执行”而不只是”AI对话”。以前的AI工具(包括ChatGPT)主要是帮你生成内容,而OpenClaw可以直接帮你操作电脑——比如你告诉它”帮我下载这个网页的所有图片并分类保存到文件夹”,它真的会去执行!

    另外一个亮点是它的”本地优先”设计理念。现在很多AI工具都强制上云,数据隐私是个大问题。OpenClaw让你可以在自己的设备上运行,数据完全不出本地,这点对我来说很有吸引力。

    当然,目前项目还在快速迭代中,有些版本可能会有bug(比如2026.3.2版本的工具权限问题),建议跟进官方文档和社区讨论。总体来说,如果你想体验最前沿的AI Agent执行能力,OpenClaw绝对值得一试!

    📥 下载地址


    文章来源:GitHub热门AI开源项目自动介绍系列 | 更新日期:2026-05-18

  • LangChain:百万Stars的AI Agent工程平台,构建智能应用的万能积木

    LangChain:百万Stars的AI Agent工程平台,构建智能应用的万能积木

    说实话,第一次接触LangChain的时候,我觉得这名字起得太绝了——把语言模型像链条一样串联起来,不就是它干的事嘛?

    从2022年底发布到现在,这个框架已经突破了100万 GitHub Stars,月活开发者超过38万,大约1.5万家企业在用它构建AI应用。在AI Agent开发领域,LangChain基本上就是”基础设施”级别的存在。


    LangChain Logo

    🚀 项目简介

    LangChain 是一个开源的AI Agent工程平台,让开发者能够用模块化的方式构建LLM驱动的应用程序。它的核心理念很简单:把AI应用开发中那些重复的”管道工作”标准化,让你专注于真正需要解决的问题。

    创始人是Harrison Chase,项目在2022年10月首次发布。如今LangChain已经从最初的”链式调用”模式进化成了完整的Agent工程平台,旗下包括LangGraph(图工作流引擎)、LangSmith(可观测性平台)和LangGraph Cloud(托管部署服务)。


    ⚙️ 安装要求和过程

    💻 环境要求

    • Python 3.9+ 或 Node.js 18+
    • 至少一个LLM API Key(OpenAI、Anthropic、Google等)

    📦 快速安装

    # Python版本
    pip install langchain langchain-openai
    
    # Node.js版本
    npm install langchain @langchain/openai

    🧪 30秒上手示例

    from langchain.chat_models import init_chat_model
    
    # 一行初始化模型,支持随时切换供应商
    model = init_chat_model("openai:gpt-4o")
    result = model.invoke("LangChain是什么?")
    print(result.content)

    就这么简单。重点是 init_chat_model 这个函数——你换模型只需要改一个字符串,从 openai:gpt-4oanthropic:claude-sonnetgoogle:gemini,代码不用动。


    💡 核心功能

    • 🔀 LangGraph:图工作流引擎
      LangChain目前最核心的子项目。把Agent的行为定义成有状态图——节点是处理步骤,边是流转规则。支持循环执行、条件分支、并行处理,还有人工介入(human-in-the-loop)的检查点。
    • 🔄 模型无关的抽象层
      写一次代码,换个模型参数就能跑。不管是GPT、Claude还是Gemini,甚至本地部署的Llama,LangChain的抽象层让你不需要为每个模型写适配代码。
    • 🧩 超丰富的集成生态
      700+个集成组件,覆盖向量数据库(Pinecone、Chroma、Weaviate)、工具调用、文件处理、搜索引擎、API对接等。基本上你想连接的外部服务,它都有现成的包。
    • 🔍 LangSmith:全链路可观测性
      在开发调试阶段这是神器——能看到Agent每一步的输入输出、token消耗、延迟,还能做A/B评估。生产环境的Agent出bug了?LangSmith帮你定位问题像用X光一样直观。
    • 📄 RAG(检索增强生成)工具链
      从文档加载、文本切分、向量化存储到检索生成,RAG的全流程LangChain都有成熟的方案。想给AI接上企业知识库?这是最成熟的开源选择之一。

    LangGraph 架构图


    📦 典型使用场景

    📈 场景一:构建企业智能客服

    用LangChain + LangGraph搭建一个多轮对话Agent,连接企业知识库做RAG检索,再通过工具调用(Tool Calling)对接订单查询、退款等业务API。人工客服处理不了的时候自动转人工,整个过程定义成一个清晰的图工作流。

    📊 场景二:自动化数据处理流水线

    比如每天从多个数据源抓取信息 → LLM分析摘要 → 自动生成报告 → 发送到指定渠道。LangChain的链式编排让这条流水线的每一步都可配置、可监控、可回溯。

    🤝 场景三:多Agent协作系统

    LangGraph支持定义多个Agent节点,让它们协作完成复杂任务。比如一个”研究Agent”负责搜索和整理信息,一个”写作Agent”负责生成内容,一个”审核Agent”负责质量把关——各司其职,通过图结构编排协作流程。


    ⭐ 推荐理由

    我觉得LangChain最大的价值不在于某个具体功能,而在于它把AI应用开发从”写Prompt”提升到了”工程化”的层面。

    用创始人Harrison Chase的话说:“你当然可以不用框架直接写Agent——就像你可以不用Web框架直接写网站一样。但大多数人选择用框架,原因是一样的:那些无聊的管道代码既繁琐又容易出错,还会让你分心。”

    Sequoia的合伙人Sonya Huang也说过:“Agent框架是AI技术栈中的中间件层。历史上,中间件公司都是极好的生意,因为它们卡在基础设施和应用之间的关键节点上。”

    当然,Andrej Karpathy也说过反面的观点——最好的生产级Agent代码可能就是一个Python文件加上API调用。这话没毛病,但我个人的经验是,当你的Agent系统复杂度上来了、需要团队协作、需要可观测性、需要快速迭代的时候,有个好框架能省下大量时间。

    💰 一组数据说明一切:

    • 2026年1月完成 2亿美元 C轮融资
    • ARR突破了 5000万美元
    • 月活开发者 38万+
    • 部署企业约 1.5万家

    社区在快速迭代,LangGraph的图工作流范式正在成为Agent开发的事实标准之一。


    📥 下载地址

  • PwC把Claude推给几十万员工:保险核保从10周缩到10天,Anthropic开始收割企业市场

    Anthropic这周干了件大事——和PwC(普华永道)签了个深度合作协议,要把Claude Code和Claude Cowork推给PwC全球几十万名专业人士用。同时,他们还专门给中小企业推出了Claude for Small Business,一口气接了QuickBooks、PayPal、HubSpot、Canva等七个常用工具。

    保险核保从10周压缩到10天,安全工作从小时级缩短到分钟级。我们很高兴把Claude交到PwC数十万员工手中。—— Dario Amodei, Anthropic CEO

    不只是部署工具,是重建业务流程

    这次合作的核心不是简单地把Chatbot塞进企业里。PwC和Anthropic建立了联合卓越中心,要培训3万名美国PwC员工使用Claude,重点做三件事:一是用Claude Code帮客户几周内交付生产级软件(以前得按季度算);二是把AI Agent嵌入投后管理和并购尽职调查全流程;三是彻底改造财务、供应链、HR这些后台职能。

    实际效果确实亮眼。保险核保周期从10周砍到10天——这意味着以前经济上不划算的业务线突然变得可行了。大型机COBOL代码现代化项目,最终管理的代码量是最初预估的4倍,还按时且没超预算。HR系统转型,一周出原型,两个月交付生产环境,现在每天处理数千笔交易。

    中小企业终于也被盯上了

    Claude for Small Business更值得关注。中小企业贡献了美国44%的GDP和近一半的私企就业岗位,但在AI adoption上一直被遗忘。Anthropic这次直接在Claude Cowork里加了一个开关,打开就能连接你已经在用的工具。

    内置了15个现成Agent工作流:工资现金流预测、月度结账、发票催收、营销活动管理、合同审查……覆盖财务、运营、销售营销和客服HR四大领域。关键设计是每一步操作都需要用户审批确认后才执行——不会自作主张发邮件或转账。数据安全方面也做了功课:员工在QuickBooks里本来看不到的数据,通过Claude也一样看不到;Team和企业版默认不拿用户数据训练模型。

    Anthropic的野心:从技术公司变成基础设施

    回看Anthropic这半年的动作:Q1收入同比增长80倍,年化营收超44亿美元,年消费百万美元以上的客户从500家翻倍到1000多家。Gates Foundation给了2亿美元合作,PwC全球部署又把触角伸到了几十万人规模。加上Claude for Small Business直接面向中小企业主,Anthropic基本完成了从”高端AI研究实验室”到”企业AI基础设施提供商”的身份转变。

    最有意思的是PwC自己先当了小白鼠——他们内部先用Claude做了日记账分录、差异分析、RFP开发,还帮Anthropic自己的CFO办公室搭建了国际薪酬系统。这种”Customer Zero”模式比任何PPT都有说服力。

    中小企业占美国近一半经济,但从未拥有大企业的资源。AI是第一个能真正弥合这个差距的技术。—— Daniela Amodei, Anthropic 联合创始人兼总裁


  • Perplexity不再只是搜索引擎了:Comet浏览器+Deep Research让AI直接给你做PPT

    说起AI搜索,很多人第一反应是ChatGPT或者Claude。但有一家公司正在悄悄把战场从”聊天框”扩展到整个浏览器——这家公司叫Perplexity,而2026年5月,它交出了一份相当激进的进化清单。

    Comet:从搜索引擎变成AI浏览器

    Perplexity在2026年5月推出了Comet——一款AI原生浏览器,覆盖iOS、Android、Mac和Windows。区别于传统浏览器塞一个Copilot侧边栏的做法,Comet把AI嵌入了浏览的每一个环节:打开任何网页都能直接总结、追问,甚至让Comet在浏览器里自主执行任务。

    Comet for Enterprise则面向企业用户提供MDM批量部署能力,支持集中管控和数据合规审计,适合金融分析师、法律研究团队这类需要大量案头工作的场景。

    Perplexity Comet浏览器
    Perplexity Comet 浏览器界面

    Deep Research:直接给你做PPT和电子表格

    这是本次更新最重磅的部分。Deep Research升级为Claude Opus 4.5(面向Max和Pro用户),并在业界率先实现了一个关键突破——可以直接生成演示文稿、电子表格、仪表盘、网站等成品交付物,而不是返回一大段文字让你自己整理。

    你可以直接说”帮我做一个分析AI代理市场的演示文稿”,Deep Research就会直接输出一份可以演示的PPT。这和大多数研究代理只返回文本的体验,完全不在一个量级。

    语音模式也升级到了GPT Realtime 1.5,可靠性提升超过25%,目前已在Comet桌面版和Android版上线。更有意思的是,Perplexity的语音回答仍然附带引用来源——这是它区别于其他语音模式的独特优势。

    Samsung Internet合作:数亿设备预装

    Perplexity还拿下了三星这个超级渠道——Comet的代理浏览能力已集成到Samsung Internet,后者预装在数亿台设备上。这意味着Perplexity的AI能力,正在直接渗透到海量硬件的原生入口,而不是让用户主动去下载一个独立App。

    Max用户还解锁了一个罕见功能:可以自选Agent使用的模型,默认Opus 4.6,也可以换成Sonnet 4.5。这在AI产品里很少见——大多数厂商都绑死自家模型,Perplexity反其道而行。

    Perplexity的核心竞争力到底是什么

    从产品矩阵来看,Perplexity 2026年的核心优势有三条:

    • 引用 grounded 能力——这是它的基因,从搜索引擎时代就积累的优势,竞品很难短期追上
    • AI原生浏览器——Comet让AI不只是问答,而是融入整个信息消费流程
    • Deep Research直接交付成品——省掉中间的”读文本再整理”环节,真正做到端到端

    对比一下竞品:ChatGPT胜在生态广度,Claude胜在安全与推理深度,Gemini背后有整个Google硬件生态。Perplexity则一直在”研究”这条垂直赛道上挖护城河,而且越挖越深。


  • Notion不再只是笔记工具了,它要当AI智能体的指挥中心

    用过Notion的人都知道,它是一个挺顺手的协作工具——文档、数据库、看板、日历,基本日常办公能想到的东西都能往里塞。但5月13日Notion发布3.5版本后,这件事变了:Notion正式推出开发者平台,目标很直接——把工作区变成AI智能体的调度中心。

    Notion Developer Platform
    Notion 3.5 开发者平台展示 (来源: Notion)

    Workers:不需要你自己搭服务器

    这次更新最核心的概念叫Workers——一段运行在Notion自己基础设施上的代码。你写好逻辑,通过CLI部署上去,它就在安全沙箱里跑了。不租服务器、不配域名、不搞CI/CD,连运行时环境都不用管。

    Workers目前免费(beta阶段),8月11日后会切换到Notion credits计费。目前支持三种核心场景:

    • 数据库同步——把任何API能访问的数据源拉进Notion数据库,比如Zendesk工单、Salesforce客户数据
    • 自定义Agent工具——写确定性逻辑替代LLM推理,省钱又可靠
    • Webhook触发——任何外部应用都能触发Notion里的工作流,PR合并自动关任务、订阅变更自动更新CRM

    外部Agent接入:Claude、Codex都能直接用

    另一个值得注意的功能是External Agents API。简单说就是:你可以把Claude、Codex、Decagon这些智能体接入Notion,让它们在你的工作区里干活。Notion在这里扮演的是编排层的角色——一个Decagon的工单可以路由给编程Agent起草修复方案,再拉团队成员审批。

    Notion is our AI layer because it’s where work is created or imagined—and we want our agents as close to the action as possible. — Dan Gilbert, CEO at Brainlabs

    这个功能目前是Alpha阶段,需要加入等待列表。非工程师也可以在Notion里直接和Agent交互,不需要去命令行。

    Agent SDK:反向输出到任何应用

    更长远的一步是Notion Agent SDK(也在Alpha阶段),可以把你在Notion里搭好的Agent嵌入到外部工具里。在CRM里点个按钮就生成报告,在Teams或Discord里回答团队成员的常见问题——数据都从你的Notion工作区里拉。

    除此之外还有几个对开发者友好的更新:Markdown API让Agent直接读写Notion页面(Agent天然处理Markdown)、MCP协议支持了会议笔记和评论、API权限从Workspace Owner扩展到了所有成员。


    怎么看这件事

    Notion这次做的事情,本质上是把自己从一个SaaS工具升级成了一个平台。以前你用它来写文档、管项目;现在它希望你的Claude、你的Codex、你自己写的Agent都住在Notion里,通过它来协调数据和任务流。

    这个定位挺聪明的。AI Agent生态现在最大的痛点不是缺模型,而是缺一个能把多个Agent串起来、让非技术人员也能参与协作的界面。Notion恰好有这个用户基础和产品心智。

    不过Workers目前还是beta,External Agents API还在Alpha,Agent SDK更是刚开了个等待列表。Notion能否真正成为企业AI的调度中心,取决于这些功能能不能快速成熟,以及开发者的响应速度。

  • Amazon Ring从40家供应商里挑中Vapi:这家AI语音初创公司如何估值冲上5亿美元

    Amazon Ring去年 holiday season 客服电话突然爆单,团队评估了超过40家AI语音供应商,最后选了一家叫Vapi的初创公司。结果今天,Ring的100% inbound来电都走Vapi平台。这笔部署直接帮Vapi拿下了Peak XV Partners领投的5000万美元B轮,投后估值约5亿美元。

    Vapi联合创始人Jordan Dearsley和Nikhil Gupta
    Vapi联合创始人Jordan Dearsley(左)和Nikhil Gupta(右)| 图源:TechCrunch

    从AI治疗师到估值5亿美元

    两个创始人Jordan Dearsley和Nikhil Gupta是滑铁卢大学的同学。最早他们其实做了一个AI治疗师——Dearsley想在每天散步时有个东西可以聊天。结果发现没多少人真的要这个产品,但不少初创公司对底层那个低延迟语音基础设施挺感兴趣。2023年他们干脆pivot,2024年Vapi平台正式公开发布。

    现在Vapi说已经处理了超过10亿通电话,目前每天跑100万到500万通,企业客户占大头。除了Amazon Ring,客户名单上还有Kavak、Instawork、New York Life、UnityAI、Cherry、Intuit。开发者平台也有超过100万开发者用过。

    “我们从小接受自助服务起家,在签下第一个大企业客户之前就已经在相当大的规模上被实战检验过了。”——Jordan Dearsley

    和Sierra、Decagon们有什么不同

    Dearsley说他们的差异化在于:不怎么搞预打包的应用,更多聚焦在语音Agent背后的基础设施和编排层。特别是那些希望对可靠性、合规性和模型行为有更大控制权的企业客户,Vapi给的粒度控制更细。

    这轮B轮除了Peak XV,还有微软的M12、Kleiner Perkins和Bessemer Venture Partners进场,Vapi总融资额现在到了7200万美元。目前年度经常性收入跑在”健康”的八位数,据投资者向TechCrunch透露。

    Vapi目前约100名员工,新资金主要用来扩工程、基础设施和市场团队。Dearsley有个有意思的比喻:”真正的难题是把模型这个不确定的野兽驯服,做到了就能给世界提供价值。”