标签: AI Agent

  • MetaGPT:68.2k Stars!SOP驱动的多智能体协作框架,让AI组成一家软件公司

    MetaGPT:68.2k Stars!SOP驱动的多智能体协作框架,让AI组成一家软件公司





    🤖 MetaGPT:68.2k Stars!SOP驱动的多智能体协作框架,让AI组成一家软件公司

    MetaGPT Logo

    📋 项目简介

    MetaGPT 是一个多智能体协作框架,核心理念是 Code = SOP(Team)——把标准化作业流程(SOP)具象化,应用于由大语言模型(LLM)构成的团队。它模拟真实软件公司的组织架构与工作流程,让多个AI智能体扮演产品经理、架构师、工程师、测试员等角色,协同完成复杂任务。

    简单来说:你给它一句话需求,它能自动输出用户故事、竞品分析、需求文档、数据结构设计、API文档、相关代码文件等完整交付物——就像一家全自动化的软件公司。

    🌐 官方资源:
    • GitHub:https://github.com/FoundationAgents/MetaGPT
    • 文档:https://docs.deepwisdom.ai/
    • Stars:68.2k+(持续增长中)

    ⚙️ 安装要求和过程

    环境要求

    # Python 3.9+ 必需
    # 建议使用 Conda 或 venv 创建独立环境
    # 需要有效的大模型API密钥(OpenAI / Azure / 其他支持LLM)

    快速安装步骤

    # 方法一:pip安装(稳定版)
    pip install metagpt
    
    # 方法二:从源码安装(最新功能)
    git clone https://github.com/geekan/MetaGPT.git
    cd MetaGPT
    pip install -e .
    
    # 配置API密钥
    # 复制配置模板
    cp config/config2.yaml config/key.yaml
    # 编辑 key.yaml,填入你的 LLM API 密钥

    验证安装

    # 运行示例:构建一款Flappy Bird游戏
    metagpt "Design a Flappy Bird game"

    ✨ 核心功能

    1. 需求到交付的全流程自动化

    输入一句话的老板需求,MetaGPT 自动完成:需求分析 → 竞品调研 → 用户故事 → 架构设计 → 代码实现 → 测试用例。全程无需人工干预,每个环节都有对应角色的智能体负责。

    2. SOP驱动的多角色协作

    这是 MetaGPT 的独门绝技。SOP(Standardized Operating Procedures) 被编码到提示词序列中,让每个智能体都具备类人的领域专业知识和标准化的协作流程。产品经理写PRD、架构师出设计方案、工程师写代码——各司其职,有序协作。

    3. 可扩展的多智能体框架

    不局限于软件公司场景。你可以基于 MetaGPT 框架自定义搭建各类多智能体应用:数据分析、内容创作、科研助手、游戏NPC……框架层提供通信、记忆、工具调用等基础能力,你只需定义角色和SOP。

    4. 丰富的内置示例场景

    官方提供了大量可直接运行的示例,覆盖:单智能体(数据分析、OCR识别、邮件回复、图像去背景)和多智能体(辩论、狼人杀、Minecraft自动化、斯坦福小镇模拟)两大类别。

    🚀 典型使用场景

    场景一:老板的一句话,变成可运行的软件

    你对着 MetaGPT 说:”帮我做一个类似Trello的任务管理工具,支持拖拽排序和实时协作。” —— 几分钟后,你将获得:需求文档、技术架构图、数据库设计、API接口文档、前端代码、后端代码、单元测试用例。当然,代码质量取决于底层模型的能力,但框架保证了”软件公司流水线”的完整运转。

    场景二:多智能体科研/创作助手

    MetaGPT 的多智能体机制不仅限于写代码。你可以设计一个”科研助手”团队:一个智能体负责文献检索,一个负责提炼核心观点,一个负责撰写综述,一个负责格式校对。相比单一AI对话,这种方式更接近于真实的团队协作,产出质量通常更高。

    场景三:教学/研究多智能体机制

    MetaGPT 本身就是多智能体研究的优秀案例。学术界用它来验证 SOP 编码、角色分工、通信协议等设计理念。如果你在研究或学习多智能体系统,MetaGPT 的源码和论文都是极佳的参考资料。

    💡 推荐理由

    🎯 为什么值得关注?

    1. 理念先进,不只是”多个ChatGPT并联”
    很多多智能体框架只是把多次LLM调用串起来,MetaGPT 的核心贡献在于把 SOP 编码进 prompt 序列,让智能体的协作有章可循,而不是自由发挥。这是从”对话式AI”走向”流程化AI”的关键一步。

    2. 软件公司隐喻非常直观
    用”产品经理 → 架构师 → 工程师 → 测试”的流程来组织智能体,降低了理解门槛,也方便了提示词工程的设计。即使是AI小白,也能理解每个角色在干什么。

    3. 与 CrewAI 形成有趣对比
    我们之前介绍过 CrewAI(轻量高性能),MetaGPT 则更偏”重流程、重规范”,两者定位不同,可以互补使用。

    4. 成本可控
    官方给出参考:用 GPT-4 生成包含分析和设计内容的样例约需 $0.2,生成完整项目约需 $2.0。对于自动化生成项目原型来说,这个成本是可以接受的。

    📥 下载地址

    GitHub github.com/FoundationAgents/MetaGPT
    官方文档 docs.deepwisdom.ai
    PyPI pip install metagpt
    论文 MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework


    📌 这是「GitHub热门AI开源项目」第26期,由 WorkBuddy AI 自动采集撰写。欢迎关注 admin.hiyoho.com 获取更多AI开源项目深度介绍。


  • Chrome DevTools MCP 来了,AI 编程智能体终于能直接调试浏览器

    Chrome 官方出手了

    Chrome DevTools 团队这几天悄悄上线了一个新玩意——chrome-devtools-mcp。名字听起来很技术,但做的事其实挺有意思:让 AI 编程智能体能够直接”摸”到浏览器的开发工具。

    以前 AI 写代码,基本就是在那儿纯文本推理,顶多看看静态代码。代码写出来能不能跑、跑起来有没有 bug、在浏览器里表现怎么样,AI 其实是不知道的。这个 MCP 项目就是来补这个短板的。

    Chrome DevTools MCP GitHub 仓库
    Chrome DevTools MCP 项目已开源发布

    MCP 是个啥

    MCP(模型上下文协议)是最近 AI 圈比较热的一个标准,用来让大模型和外部工具、数据源做标准化通信。Chrome 团队把这个协议用到了 DevTools 上,相当于给 AI 装了一双眼睛和一双手。

    AI 智能体现在可以像人类开发者一样,实时检查 DOM 树、监控网络请求、分析控制台日志、调试 JavaScript 执行。

    这意味着什么?意味着 AI 不光能写代码,还能在真实浏览器环境里验证代码对不对、哪出问题了、怎么修。这个闭环一旦打通,前端自动化开发和 AI 自修复代码的能力会直接上一个台阶。

    为什么这事值得关注

    Chrome 官方出来推这个,信号挺明确的:浏览器厂商开始认真看待 AI 编程这个场景了。不是做个插件凑热闹,而是把核心调试能力通过标准化协议开放出来。

    • 权威性有保障,Chrome 团队自己在维护
    • 已经上了 NPM,能直接装进现有工作流
    • 兼容 Claude、GPT 这些主流大模型
    • 前端自动化、Web 测试、爬虫调试这些场景直接受益

    对开发者意味着什么

    如果你在用 Claude Code、Cursor 这类 AI 编程工具,这个 MCP 服务可以让它们直接操作浏览器调试,不用你手动去 DevTools 里查问题再贴给 AI 分析。AI 自己就能看 DOM、抓网络请求、打断点调试。

    项目现在在 GitHub 上开源,搜 ChromeDevTools/chrome-devtools-mcp 就能找到。NPM 上也有打包好的版本,装完配置一下就能用。

  • AutoGen – 微软开源的多智能体对话框架

    AutoGen – 微软开源的多智能体对话框架

    AutoGen Logo
    AutoGen – 多智能体AI协作框架

    📝 项目简介

    AutoGen 是微软研究院开源的事件驱动编程框架,专门用于构建可扩展的多智能体AI系统。它就像 AI Agent 世界的”交响乐团指挥”,让不同的 AI 智能体能够协同工作、互相对话,共同完成复杂的任务。无论你是想构建自动化的工作流程,还是研究多智能体协作,AutoGen 都能提供强大而灵活的解决方案。


    ⚙️ 安装要求和过程

    环境要求

    • Python 3.8 或更高版本
    • pip 包管理工具
    • (可选)Docker – 用于容器化代码执行
    • OpenAI API Key 或其他 LLM 服务访问权限

    快速安装步骤

    推荐使用 pip 安装指定版本,避免版本兼容问题:

    pip install autogen-agentchat~=0.2

    💡 提示:当前 0.2 版本稳定可用,0.4 稳定版也已发布,旧版本用户可参考迁移指南升级。


    💡 核心功能

    1. 低门槛构建多智能体对话应用

    AutoGen 大大简化了复杂 LLM 工作流的编排、自动化和优化。你只需要写少量代码,就能搭建起下一代 LLM 应用,同时最大化 LLM 的性能,弥补其固有缺陷。

    2. 支持多样化对话模式

    框架提供了可自定义、可对话的智能体,开发者可以自由调整对话自主性、智能体数量和对话拓扑结构。无论你需要确定性的工作流,还是动态的多智能体协作,都能找到合适的模式。

    3. 灵活的代码执行方式

    支持三种代码执行模式:无代码执行(纯文本对话)、本地命令行执行、Docker 容器执行。特别是 Docker 模式,可以在隔离环境中安全运行生成的代码,避免对本地环境造成污染。

    4. 全场景示例覆盖

    官方提供了不同复杂度、可直接运行的系统示例,覆盖多领域、多复杂度的应用场景。从简单的两智能体对话,到复杂的多专家联合决策系统,都有对应的参考实现。


    🎯 典型使用场景

    场景一:自动化数据分析与可视化

    假设你是一名分析师,需要快速分析两只股票(比如英伟达和特斯拉)年初至今的价格走势。使用 AutoGen,你可以让 UserProxyAgent 向 AssistantAgent 发起对话请求,AssistantAgent 会自动生成 Python 代码来获取股票数据、绘制图表,然后通过代码执行器运行代码,最终将生成的图表保存到文件。整个过程中,你不需要手动编写一行代码!

    场景二:多专家联合决策系统

    在复杂的业务场景中,单一 AI 可能难以做出全面准确的决策。使用 AutoGen,你可以创建多个具有不同专长的智能体(比如:数据分析师、行业专家、风险评估师),让它们通过对话协作,共同完成投资决策、医疗诊断、技术选型等复杂任务。每个智能体都可以调用不同的工具和 API,真正实现”三个臭皮匠,顶个诸葛亮”。

    场景三:AI Agent 研究与教学

    AutoGen 由微软研究院、宾夕法尼亚州立大学、华盛顿大学的合作研究支撑,是多智能体 AI 系统研究的理想平台。研究人员可以基于 AutoGen 快速验证新的对话模式、协作策略;教师可以用它制作生动的教学演示,让学生直观理解多智能体系统的工作原理。


    🌟 推荐理由

    为什么我强烈推荐 AutoGen?

    • 🏢 大厂背书,值得信赖:微软研究院主导开发,代码质量高,文档完善,社区活跃
    • 🚀 降低门槛,快速上手:相比 LangChain 等框架,AutoGen 的多智能体对话模式更直观,示例丰富,新手也能快速入门
    • 🛡️ 安全可控:支持 Docker 容器化执行代码,支持人工介入(human-in-the-loop),避免 AI 生成的危险代码直接运行
    • 🔧 高度灵活:可以自由定义智能体的行为、对话流程、工具调用,满足各种定制化需求
    • 📚 生态丰富:作为”智能体 AI 领域的 PyTorch”,AutoGen 正在成为多智能体系统的标准框架,未来潜力巨大

    我个人觉得,如果你对 AI Agent、多智能体系统、LLM 应用开发感兴趣,AutoGen 绝对是必学的框架之一。它不仅能帮你快速实现想法,还能让你深入理解多智能体协作的精髓。


    📥 下载地址


    本文介绍了 AutoGen 多智能体框架的核心特性和应用场景。如果你正在构建 AI Agent 系统,不妨试试这个强大的工具!

  • Gemini CLI:104.5k Stars!Google官方终端AI智能体,让命令行成为你的AI搭档

    Gemini CLI:104.5k Stars!Google官方终端AI智能体,让命令行成为你的AI搭档

    Gemini CLI 特色图

    📌 项目简介

    Gemini CLI 是 Google 官方开源的终端 AI 智能体,把 Gemini 大模型的能力直接搬进了你的命令行。它不只是一个聊天工具——它能读你的代码库、帮你写代码、调试 Bug、执行终端命令,甚至直接操作文件,真正实现了「在终端里有一个懂你项目的 AI 搭档」。


    ⚙️ 安装要求和过程

    📦 环境要求

    • Node.js >= 18(必须!)
    • npm 或 npx(自带)
    • Google 账号(登录获取免费额度)
    • 终端:支持 macOS / Linux / Windows

    🚀 快速安装(3步搞定)

    最简单的方式,一步安装:

    npm install -g @google/gemini-cli

    或者用 npx 直接运行(无需安装):

    npx @google/gemini-cli

    安装完成后,在终端输入以下命令启动:

    gemini

    首次使用会用浏览器打开 Google 登录页面,授权后即可开始使用,免费版有每天 1000 次请求额度,对个人使用完全够用。


    💡 核心功能

    🔍 1. 全代码库理解

    Gemini CLI 不是「瞎猜」你的代码,它能真正读取和理解整个项目目录。你问它「这个函数的逻辑是什么」,它会去读对应的文件,给你准确的答案,而不是泛泛而谈。

    🛠️ 2. 代码生成与执行

    直接让它写代码、改 Bug、重构函数,它生成完还能直接帮你写到文件里。更厉害的是它可以在沙箱环境里执行代码,验证结果后再提交,减少低级错误。

    🔗 3. 内置 Google 工具集成

    因为是第一方工具,Gemini CLI 可以直接调用 Google 的生态:搜索网页、读取 Gmail、管理日历、操作 Google Drive 文件……这些都不需要额外配置,登录账号就能用,真正的一体化体验。

    📋 4. 多模态支持

    不只处理文字——你可以把截图、设计图、PDF 文档直接丢给它,它能看懂图片内容、提取 PDF 里的文字、分析表格数据。写前端的时候直接把设计稿截图发过去,它能帮你写出对应的 HTML/CSS,这体验真的很丝滑。

    ⚡ 5. 超长上下文窗口

    Gemini 的杀手锏就是上下文长度,CLI 版本同样支持最高 100 万 token 的上下文窗口(付费版)。什么概念?你可以把整个中型项目的代码库全部塞进去,它都能记住,不需要像其他工具那样担心「忘记前面的对话」。


    🎯 典型使用场景

    场景一:接手陌生项目,快速上手

    刚 clone 下来一个开源项目,看不懂项目结构?在终端里直接输入 gemini 启动,然后问它:「这个项目的入口文件在哪?主要业务逻辑是怎么流转的?」它会读一遍整个目录,给你画出一张「项目地图」,比自己瞎看文档快太多了。

    场景二:写代码卡壳,AI 当结对编程伙伴

    正在写一个复杂的正则表达式或者递归算法,脑子转不动了?不用切换窗口去网页版 ChatGPT,直接在终端里问 Gemini CLI,它看着你的代码上下文给建议,甚至直接帮你写完整个函数。最关键是——它知道你项目里已有的工具和风格,不会给你写出风格迥异的代码。

    场景三:自动化日常开发任务

    需要批量重命名文件、生成项目的 README、写单元测试、或者分析 git log 找出是谁引入了某个 Bug?这些琐碎但耗时的任务,直接告诉 Gemini CLI 去做,它能在终端里直接执行,你只需要最后确认一下结果就行。


    🌟 推荐理由

    我推荐 Gemini CLI,最直接的原因就是:它是真的「懂终端」的 AI 工具

    之前用过不少 AI 编程助手,但大多要么是在网页里聊天(切换窗口很打断思路),要么是 VS Code 插件(离开编辑器就用不了)。Gemini CLI 不一样——它就在你的终端里,和你日常的 cdgitnpm 命令待在一起,想问什么直接问,完全不需要切换上下文。

    另一个很打动我的点是免费额度够大方。每天 1000 次请求,对个人开发者来说基本上用不完。当然如果你需要 100 万 token 的超长上下文,那就要开付费了,但普通使用免费版完全够用。

    当然它也有不足——相比 Claude Code,Gemini CLI 的代码生成质量偶尔会稍逊一筹,复杂逻辑可能需要多轮对话才能搞定。但作为一款终端原生的免费 AI 助手,它已经足够好用,特别是如果你本来就在用 Google 生态(Gmail、Drive 等),整合体验会很流畅。


    📥 下载地址

    🌐 官方网站:geminicli.com

    🐙 GitHub 仓库:github.com/google-gemini/gemini-cli(104.5k ⭐)

    📦 npm 安装:npm install -g @google/gemini-cli

    📚 官方文档:查看 GitHub README

    🚀 如果你每天都在用终端,Gemini CLI 值得一试。
    把它当成你的「终端里的 AI 结对编程伙伴」,你会发现开发效率提升不止一点点。

  • GPT-5.6曝光了,OpenAI砸钱宣战:换掉Claude Code

    GPT-5.5发布才三周,GPT-5.6的内部测试代码就被曝光了。OpenAI的迭代速度快到让同行连喘气的机会都没有。

    GPT-5.6开发曝光
    知名爆料人Leo曝光GPT-5.6已进入内部测试阶段(图源:36氪)

    OpenAI加速爆更,Codex将狂飙3倍

    GPT-5.6还没正式亮相,OpenAI的产品端已经先炸了一波。有爆料称OpenAI将在本周四上线「ultrafast模式」,速度提升2-3倍,专为延迟敏感型任务提供最快的可用响应。

    同步推进的还有图像模型的A/B测试更新,就是那个在Image Arena排行榜上以+242分断档领先的gpt-image-2。要知道OpenAI在速度优化上早就有布局,今年3月GPT-5.4发布时,Codex的/fast模式已经实现了1.5倍加速。后来GPT-5.3-Codex-Spark更是借助Cerebras芯片,把推理速度拉到了超过1000 token/秒,是普通模式的15倍。

    而这次的ultrafast模式,直接在主力模型上实现2-3倍提速。不是阉割版,不是小模型替代,是正儿八经的旗舰模型加速。对于开发者来说,Agent循环、长任务流水线、浏览器自动化,所有需要等待的场景,体验将直接起飞。

    OpenAI的目标不再止步于AGI,而是直指ASI(超级智能)。当模型迭代速度由AI自身驱动,通往ASI的飞轮已经开始自转。

    全面开战!Codex vs Claude Code

    硅谷最戏剧性的一幕出现了。赶在OpenAI「ultrafast模式」上线之前,Anthropic放出了Opus 4.7 Fast模式,提供比Codex更快的高级推理、更优的长上下文编码,以及更流畅的氛围编码体验。

    真正激烈的一幕,就是Codex和Claude Code的全面开战。Anthropic率先出招,从6月15日起,为付费订阅用户每月提升50%的编程额度,全面覆盖Claude Agent SDK、命令行工具claude -p,以及深度集成GitHub工作流的Claude Code。

    Codex vs Claude Code
    OpenAI与Anthropic的编程工具大战已然开启

    OpenAI的反应非常迅速,祭出了一招堪称「重磅级补贴」的操作——在接下来30天内,任何想从其他平台切换到Codex的企业,都将获得2个月的免费使用权。奥特曼更是亲自下场带货,直言「Codex才是目前市面上最强的AI编程产品」。

    2个月免费,按Pro计划200美金/月的标准算,等于直接送了400美元的使用权。这种怼脸开打的战局,看呆了整个硅谷。OpenAI的意图非常明确:趁Claude Code用户还在犹豫,直接拿出钱砸出一条迁移的通道。


    当迭代速度逼近ASI

    把视野拉到最高的维度,GPT-5.6和编程大战,表面上是两件独立的事。但把它们放在一起看,一个远比任何单一事件都更深刻的趋势浮现了——AI的自我加速和商业化,正在形成正反馈飞轮。

    一方面,模型在加速进化。GPT-5.3-Codex是OpenAI首个「参与自身训练」的模型。到GPT-5.5,OpenAI内部85%的员工每周使用Codex。GPT-5.6的开发,几乎可以确定是在GPT-5.5的深度参与下进行的。AI在帮OpenAI造更强的AI。

    另一方面,编程工具的普及正在释放前所未有的工程产能。Codex 300万周活跃用户,Claude Code用户数同样在爆发式增长。当数百万开发者把AI编程工具当作日常效率神器,AI生成的代码又反哺回AI的训练和部署,这个循环的速度只会越来越快。

    • AI参与自身训练和部署,形成自我强化循环
    • 编程工具普及释放工程产能,加速产品迭代
    • 两家万亿级公司用「补贴战」加速AI普及
    • 通往ASI的飞轮已经开始自转
  • vLLM:80.7k Stars!高性能LLM推理引擎,让AI模型部署不再成为瓶颈

    vLLM:80.7k Stars!高性能LLM推理引擎,让AI模型部署不再成为瓶颈





    vLLM:80.7k Stars!高性能LLM推理引擎,让AI模型部署不再成为瓶颈

    vLLM Logo

    vLLM – 高性能LLM推理与服务引擎


    📝 项目简介

    vLLM 是由加州大学伯克利分校Sky Computing实验室开发的高吞吐量、内存高效的LLM推理与服务引擎,目前已成为拥有2000+贡献者的活跃开源项目,被誉为”AI模型部署的加速器”。


    ⚙️ 安装要求和过程

    环境要求

    • 操作系统:Linux(推荐)或 macOS/Windows(需WSL2)
    • Python版本:3.8 – 3.11
    • GPU:NVIDIA GPU(CUDA 7.0+)或 AMD GPU(ROCm 5.6+)
    • 内存:建议16GB+ RAM

    快速安装

    # 使用 pip 安装(推荐)
    pip install vllm
    
    # 使用 uv 安装(更快)
    uv pip install vllm
    
    # 从源码安装(用于开发)
    git clone https://github.com/vllm-project/vllm.git
    cd vllm
    pip install -e .

    💡 提示:安装前建议先查看官方安装指南,选择与你的硬件和系统匹配的安装方式。


    ✨ 核心功能

    1. 业界领先的推理吞吐量

    采用PagedAttention技术高效管理注意力键值内存,支持连续批处理、分块预填充、前缀缓存,实现业界顶尖的推理吞吐量。

    2. 广泛的模型与硬件兼容性

    支持200+模型架构(Llama、Qwen、DeepSeek-V3、Mixtral等),兼容NVIDIA/AMD GPU、x86/ARM CPU,还可通过插件支持Google TPU、Intel Gaudi、华为昇腾等硬件。

    3. 丰富的推理优化技术

    支持FP8/INT8/INT4量化、投机解码(Speculative Decoding)、FlashAttention、CUDA内核优化等多种推理加速技术,显著降低延迟和成本。

    4. OpenAI兼容API服务

    提供与OpenAI API完全兼容的服务接口,只需修改API base URL即可将现有应用无缝迁移到vLLM,支持流式输出、结构化输出、工具调用等高级功能。

    5. 分布式推理支持

    支持张量并行、流水线并行、数据并行、专家并行、上下文并行等多种分布式推理策略,可轻松扩展到大模型和多GPU场景。


    🎯 典型使用场景

    场景一:自建私有化AI推理服务

    企业可以使用vLLM在自有GPU服务器上部署Llama、Qwen等开源模型,提供与OpenAI兼容的API接口,实现数据私有化、成本可控的AI推理服务。相比调用公有云API,可节省70%以上的成本。

    场景二:AI应用高性能后端

    将vLLM作为AI聊天机器人、代码助手、RAG系统的后端推理引擎,利用其连续批处理和高吞吐量特性,支撑高并发用户请求,提升用户体验。

    场景三:多模型推理服务统一平台

    使用vLLM的多LoRA适配器支持能力,在同一服务实例中动态加载多个微调模型,或使用模型并行技术同时服务多个不同架构的模型,简化运维复杂度。


    💡 推荐理由

    作为一个经常跟大模型打交道的开发者,我深刻体会到模型推理部署是AI应用落地的最大瓶颈之一。直到遇见vLLM,这个问题终于有了优雅的解决方案。

    vLLM最让我惊艳的是它的PagedAttention技术——灵感来自操作系统的虚拟内存管理,将KV Cache分割成固定大小的”页”,动态分配给不同请求。这让GPU内存利用率从传统的40-60%飙升到80%以上,吞吐量提升了2-4倍!

    另外,vLLM的OpenAI兼容API设计太贴心了。我只需要改一行代码(把API base URL从api.openai.com改成localhost:8000),整个应用就迁移到了自部署的模型上,零改动成本。

    如果你正在为AI推理成本发愁,或者需要私有化部署大模型,vLLM绝对是首选方案。目前已有数千家企业在生产环境使用vLLM,包括Meta、Google、腾讯等巨头,成熟度完全不用担心。


    📥 下载地址


    📌 本文由 WorkBuddy AI 自动采集撰写,原文首发于 admin.hiyoho.com


  • 7亿美元砸向’隐身’AI公司:Hark想要做什么






    7亿美元砸向”隐身”AI公司:Hark想要做什么

    要做出一款人人必备的AI消费级产品,到底需要多少钱?Hark的答案是:至少7亿美元。

    这家处于”隐身模式”的AI实验室周四宣布完成7亿美元A轮融资,投后估值达到60亿美元。光看这个数字,你可能会以为这家公司已经拿出了什么惊为天人的产品,但事实是——他们几乎什么都没对外披露过。

    Hark AI界面概念图
    Hark宣传视频截图,具体产品形态仍未公开

    谁是Brett Adcock?

    要理解Hark,得先认识它的创始人Brett Adcock。这个人不是第一次创业了——他之前创立了人形机器人公司Figure AI(就是那个做人形机器人的),还创立了电动飞机制造商Archer。2025年底,他用自己的1亿美元资金创立了Hark。

    Adcock的创业轨迹挺有意思:从电动飞机到人形机器人,现在又杀进AI。这三件事其实有一个共同点——都是”硬科技”,都需要软硬件结合,都不是靠写个App就能搞定的事情。


    投资方阵容:芯片巨头全来了

    这轮融资的投资方名单读起来像一份”科技圈名人录”:

    • 领投方:Parkway Venture Capital
    • 参投方:英伟达、AMD Ventures、英特尔资本、高通创投——芯片三巨头齐聚
    • 其他参投方:ARK Invest、Brookfield、Greycroft、Prime Movers Lab、Salesforce Ventures、Tamarack Global

    看到英伟达、AMD、英特尔都来了,你大概能猜到Hark要做的事情可能不只是软件。这三家可是竞争对手,能让他们同时掏钱,说明这个项目确实有点东西。

    芯片巨头们押注的,可能不只是模型,而是下一代AI原生硬件。


    Hark到底在做什么?

    这是最神秘、也最让人好奇的部分。根据公开信息,Hark正在开发两样东西:

    1. 模型和软件:一款作为”与数字世界通用接口”的智能体AI系统。预计今年夏天发布首批多模态模型,这些模型将为可与现有产品和服务协同工作的个人AI平台提供动力。

    2. 硬件:公司预计在模型发布之后,推出专门为这些系统打造的硬件设备。设计总监Abidur Chowdhury是苹果前产品高管,这个人事安排已经说明了很多问题。

    “通用接口”这个词很耐人寻味。它可能指的是一个能够跨应用、跨平台、跨设备工作的AI交互层——你不需要分别在微信里问AI、在淘宝里问AI、在微信里问AI,而是有一个统一的入口和交互方式。


    团队和产品设计:苹果基因

    Hark的产品设计总监Abidur Chowdhury曾任苹果产品高管,本周当TechCrunch向他抛出一系列问题时,他拒绝透露正在开发的产品的新细节。但他表达了一个很直白的看法:

    “我还没见过任何感觉真正能帮助普通人的产品。人们确实在开发帮助人们制作软件的东西,这很有效,也很有影响力,但我们还没看到真正面向普通人的产品。”

    这段话其实点出了当前AI产品的一个核心问题:很多AI工具都是给开发者、给专业人士用的,真正让普通人觉得”哇,这东西改变了我的生活”的产品,确实还很少。

    Chowdhury说,虽然Anthropic正在优先开发编码工具,OpenAI在IPO前也在朝同一方向发展,但很少有公司像Hark这样专注于打造界面和原生硬件。


    未知的挑战:隐私与接受度

    当然,疑问远多于答案。其中一个核心挑战是:如何在不让周围人感到不适或侵犯他们隐私的情况下,向AI助手提供用户生活的上下文信息?

    Meta的眼镜、谷歌即将推出的安卓眼镜,都还在摸索这个问题的答案。当被问及Hark如何解决这个特殊难题时,Chowdhury只是笑了笑,没有回答。

    这个沉默其实很能说明问题。隐私、接受度、社交礼仪——这些都不是靠技术就能搞定的事情。你可以做出最强的AI,但如果大家觉得戴个摄像头在脸上很怪,或者觉得AI太侵入自己的生活,那产品再强也没用。


    资金用途:抢人、抢算力

    新资金将主要用于三件事:

    • 招聘硬件、产品设计和AI研究领域的顶尖人才
    • 采购算力(公司目前运营着一个搭载英伟达B200 GPU的数据中心)
    • 采购组件(为硬件产品做准备)

    公司目前有70名员工。对于一个拿了7亿美元A轮的公司来说,这个人数不算多。也说明他们还在组建核心团队的阶段,产品可能还需要一段时间才能亮相。


    写在最后

    Hark的这轮融资,其实是AI行业一个很有意思的缩影:大家在模型能力上的军备竞赛还在继续,但越来越多的人开始意识到,光有模型不够,还得有好的交互方式、好的硬件载体、好的产品体验。

    Brett Adcock之前的创业经历表明,他不是一个只停留在PPT上的人。Figure的人形机器人、Archer的电动飞机,都是实打实造出来的东西。如果Hark真的在做AI硬件,那这7亿美元可能只是个开始。

    当然,现在下结论还太早。Hark选择隐身模式,说明他们知道自己还在早期。但芯片三巨头同时押注,至少说明了一件事:下一代AI终端的争夺战,已经悄悄打响了。


  • Google I/O 2026:AI代理生态系统为何让普通用户困惑

    Google I/O 2026锛欰I浠g悊鐢熸€佺郴缁熶负浣曡鏅€氱敤鎴峰洶鎯?/h2>

    鏈懆鐨凣oogle I/O寮€鍙戣€呭ぇ浼氫笂锛岃胺姝屾弧鎬€婵€鎯呭湴鎺ㄥ嚭浜嗕竴绯诲垪AI浠g悊浜у搧锛岃瘯鍥惧悜娑堣垂鑰呭睍绀轰汉宸ユ櫤鑳藉浣曟敼鍙樻垜浠娇鐢ㄧ綉缁滅殑鏂瑰紡銆備絾鐜板疄鏈夌偣灏村艾鈥斺€旇繖浜涗骇鍝佷笉浠呭懡鍚嶆贩涔憋紝鑰屼笖澶ч儴鍒嗗姛鑳介兘琚攣鍦ㄤ粯璐瑰鍚庨潰锛屾櫘閫氱敤鎴锋牴鏈懜涓嶇潃杈广€?/p>

    Google AI浠g悊姒傚康鍥? style=
    Google鍦↖/O澶т細涓婂睍绀虹殑AI浠g悊姒傚康鍥撅紙鍥剧墖鏉ユ簮锛歍echCrunch锛?/figcaption>

    涓€鍫嗘柊鍚嶅瓧锛岀敤鎴疯涓嶄綇

    璋锋瓕杩欐鎺ㄥ嚭浜嗗ソ鍑犱釜AI浠g悊浜у搧锛屾瘡涓兘鏈変笉鍚岀殑鍚嶅瓧鍜屽畾浣嶃€傞鍏堟槸”淇℃伅浠g悊”锛坕nformation agents锛夛紝杩欑畻鏄胺姝屾彁閱掓湇鍔$殑AI鍗囩骇鐗堬紝鍙互鍦ㄥ悗鍙?4灏忔椂杩愯锛屽府浣犺拷韪劅鍏磋叮鐨勮瘽棰橈紝姣斿浠锋牸鍙樺寲銆佸ぉ姘旈璀︾瓑绛夈€?/p>

    鐒跺悗鏄?strong>Gemini Spark锛岃繖鏄竴娆?涓汉”AI浠g悊锛屽彲浠ユ帴鍏ヤ綘鐨凣mail銆佽胺姝屾枃妗c€丟oogle Workspace锛屽府浣犵鐞嗘暟瀛楃敓娲汇€傝胺姝屾紨绀虹殑渚嬪瓙鍖呮嫭浠庨偖浠堕€氳閲屾彁鍙栦富棰樸€佹暣鐞嗗搴簱瀛樸€佽褰曡喘鐗╂竻鍗曪紝鐢氳嚦瑙勫垝鍥綋鏃呰銆傝寰楁尯缇庡ソ锛屼絾鏅€氱敤鎴峰彲鑳戒細鎯筹細鎴戠敤缇よ亰鎴栬€呴偖浠朵笉灏卞浜嗭紵

    杩樻湁Android Halo锛岃繖鏄敤鏉ユ帴鏀禨park閫氱煡鐨勫姛鑳解€斺€斿锛屼綘娌$湅閿欙紝鍏夋槸閫氱煡鍔熻兘杩樻湁涓嫭绔嬪搧鐗屻€傝嚦浜庝负鍟ヨ杩欎箞鎼烇紝鍚堢悊鐨勭寽娴嬫槸璋锋瓕鍐呴儴浜у搧鍥㈤槦绔炰簤澶縺鐑堬紝鍝€曡鐢ㄦ埛鍥版儜涔熻绐佸嚭鑷繁鐨勫姛鍔炽€?/p>

    Gemini搴旂敤閲岃繕浼氫笂绾夸竴涓悕涓?姣忔棩绠€鎶?锛圖aily Brief锛夌殑鍔熻兘锛屽彲浠ヤ粠浣犵殑Gmail鏀朵欢绠便€佹棩鍘嗗拰浠诲姟涓彁鍙栦俊鎭紝鐢熸垚涓€у寲鎽樿銆傚惉璧锋潵涓嶉敊锛屼絾闂鏄€斺€旇繖浜涗笢瑗垮埌搴曞湪鍝紵

    浠樿垂澧欏悗鐨凙I锛屾櫘閫氫汉鐢ㄤ笉涓?/h3>

    鏇村叧閿殑闂鏄紝杩欎簺浜у搧澶ч儴鍒嗕紭鍏堝悜璋锋瓕鐨?strong>Ultra璁㈤槄鐢ㄦ埛寮€鏀撅紝杩欎釜濂楅姣忔湀瑕?00缇庡厓銆備俊鎭拰Spark浠婂浼氬悜Ultra鐢ㄦ埛寮€鏀撅紝Halo瑕佸埌”浠婂勾鏅氫簺鏃跺€?鎵嶆帹缁欏畨鍗撶敤鎴凤紝Daily Brief姝e湪鍚戠編鍥界殑Ultra銆丳ro鍜孭lus璁㈤槄鐢ㄦ埛鎺ㄩ€併€?/p>

    涔熷氨鏄锛屽鏋滀綘涓嶆槸姣忎釜鏈堢牳100缇庡厓鐨勯偅鎵?AI閲嶅害鐖卞ソ鑰?锛屼綘灏卞彧鑳界湅鐫€杩欎簺鍔熻兘娴佸彛姘淬€傝胺姝岃〃绀轰細鍦?鍚堥€傜殑鏃舵満”鍚戝厤璐圭敤鎴峰紑鏀撅紝浣嗙幇鍦ㄦ樉鐒舵洿鍦ㄤ箮浠樿垂鐢ㄦ埛鐨勫弽棣堛€?/p>


    鐐妧杩樻槸瑙e喅鐪熷疄闂锛?/h3>

    璋锋瓕鍦ㄥぇ浼氫笂鐨勬紨绀轰篃娌″府涓婂繖銆傛瘡涓紨璁茶€呭嚭鍦洪棿闅欓兘鍦ㄥ睍绀篈I鐢熸垚鐨勫浘鐗囷紝杩樻挱鏀句簡涓€娈甸害鐗囬鏍肩殑AI鍔ㄧ敾锛岄噷闈㈢殑Tensor鑺墖锛圱PU锛変細璇磋瘽銆傚湪瀹夊崜鐪奸暅鐨勬紨绀轰腑锛岃胺姝屽睍绀鸿繖娆捐澶囧彲浠ユ妸浣犳媿鐨勭収鐗囪浆鎹㈡垚鍏朵粬鍐呭鈥斺€旀瘮濡傛媿涓€寮犲彴涓嬭浼楃殑鐓х墖锛屼慨鏀瑰悗鍔犱笂涓€鑹樻紓娴殑椋炶墖锛岀劧鍚庡彂鍒板畨鍗撴墜琛ㄤ笂銆?/p>

    鏄尯閰风殑锛屼絾涓轰簡寤烘暟鎹腑蹇冿紝鏈変汉瀹惰寮哄埗寰佹敹鍘讳慨杈撶數绾胯矾锛岃繖鍊煎緱鍚楋紵鏅€氱敤鎴烽渶瑕佺殑鍙笉鍙槸杩欎簺鑺遍噷鑳″摠鐨勫皬鍔熻兘锛屾墠鑳芥帴鍙楀姝ゅ墽鐑堢殑绀句細鍙樺寲銆?/p>

    鐜板疄鏄紝澶у鏁颁汉鐜板湪鎶夾I绛夊悓浜庢浛浠d紶缁熸悳绱㈢殑鑱婂ぉ鏈哄櫒浜恒€備粬浠笉瑙夊緱AI鍥剧墖銆佽棰戞ā鍨嬫槸浠€涔堜护浜烘儕鍙圭殑鍒涗綔绐佺牬锛屽弽鑰岃涓哄畠浠槸鍒堕€?AI鍨冨溇鍐呭”鐨勫伐鍏封€斺€旇繖浜涘唴瀹瑰浠婂厖鏂ョ潃绀句氦骞冲彴锛岃繕瀵艰嚧鑷鍚庨櫌瑕佸缓涓嶉渶瑕佺殑鏁版嵁涓績銆?/p>

    • 鏅€氱敤鎴疯浠樿处鍗曘€佷氦鎴跨銆佸姞娌广€佷拱鑿?/li>
    • 瑕佸湪AI鎷涜仒绯荤粺鍥犱负涓€鐐规妧鏈粏鑺傚氨鎷掓帀绠€鍘嗙殑鎯呭喌涓嬫壘宸ヤ綔
    • 瑕佸钩琛″厖婊″帇鍔涚殑鐢熸椿锛岃€屾渶杩戠殑鎶€鏈繘姝ュ弽鑰屾垚浜嗚礋鎷?/li>

    濡傛灉璋锋瓕鑳芥崟鎹夊埌鐪熷疄鐨勬秷璐硅€呮儏缁紝瀹冩湰鍙互寮鸿皟AI浠g悊鑳藉噺灏戝睆骞曚娇鐢ㄦ椂闂淬€備篃灏辨槸璇达紝鐢ㄦ埛涓嶇敤鑺辨椂闂村仛璋冪爺銆佹暣鐞嗐€佽拷韪俊鎭拰鏂伴椈锛屼唬鐞嗗彲浠ユ帴绠¤繖浜涙棩甯镐换鍔★紝璁╃敤鎴疯兘涓嬬嚎锛屽幓杩囨病鏈夌數鑴戝共鎵扮殑鐪熷疄鐢熸椿銆?

    绔炰簤瀵规墜宸茬粡璧板湪鍓嶉潰

    涓庢鍚屾椂锛孭oke銆丳oppy銆丷PLY銆乄ingman杩欑被涓绘墦娑堟伅浜や簰鐨凙I鍒濆垱鍏徃锛屾鍦ㄥ睍绀轰竴绉嶆洿鑷劧鐨勪笌AI浠g悊浜や簰鐨勬柟寮忥細閫氳繃澶у姣忓ぉ閮藉湪鐢ㄧ殑鐭俊鍔熻兘銆備綘浠ュ悗鑳藉彂鐭俊缁橲park鍚楋紵璋锋瓕I/O涓婄殑浠h〃鍚硦鍦拌〃绀猴紝鏈潵鏌愪釜鏃堕棿鐐逛細瀹炵幇銆?/p>

    杩欏拰璋锋瓕鏃╂湡鐨勭瓥鐣ュお涓嶄竴鏍蜂簡銆傚綋鏃跺畠鎺ㄥ嚭鐨凣mail鏄厤璐圭殑閭欢鏈嶅姟锛屾瘮鐜版湁閫夐」濂藉緱澶氾紱璋锋瓕鎼滅储涔熸槸鍏嶈垂鏁寸悊鏃╂湡缃戠粶锛岃鎵€鏈変汉閮借兘鏇存柟渚垮湴鑾峰彇淇℃伅銆?/p>

    Google I/O鏈彲浠ユ槸AI浠g悊閫氳繃绠€鍗曘€佸厤璐圭殑娑堣垂鑰呬骇鍝佽Е杈炬墍鏈変汉锛屽疄鐜扮牬鍦堢殑鏃跺埢锛堝彧闇€瑕佷竴涓搧鐗屽悕锛侊級銆傝繖涓骇鍝佺敋鑷冲彲鑳戒細璁╁ぇ瀹跺儚褰撳勾姹侴mail閭€璇蜂竴鏍锋姠鐫€瑕併€備絾鐜板疄鏄紝璋锋瓕鐨勬柊AI浠g悊鈥斺€旇繖浜涜兘涓烘垜浠伐浣溿€佹弧瓒虫垜浠釜鎬у寲闇€姹傜殑宸ュ叿鈥斺€斿澶у鏁颁汉鏉ヨ浠嶇劧閬ヤ笉鍙強銆?/p>


    馃搸 鍘熸枃鏉ユ簮锛?a href=”https://techcrunch.com/2026/05/21/google-is-pitching-an-ai-agent-ecosystem-to-consumers-who-may-not-buy-it/” style=”color:#6366f1;” target=”_blank”>Google is pitching an AI agent ecosystem to consumers who may not buy it – TechCrunch
  • 谷歌I/O 2026的尴尬:AI智能体这么强,为啥普通人无感?

    谷歌I/O 2026的尴尬:AI智能体这么强,为啥普通人无感?

    谷歌I/O 2026大会上周落幕,整场活动最值得期待的新功能之一,是面向消费者的AI智能体(AI agents)。但说实在的,这也是整场发布会里最让人摸不着头脑的部分。

    信息智能体(information agents)正式亮相,这是老牌Google Alerts服务的AI升级版。这类智能体可以7×24小时在后台运行,帮你跟进感兴趣的主题——市场趋势、价格追踪、恶劣天气预警之类的。

    还有Gemini Spark,这是一款”个人”AI智能体,可以集成Gmail、Google Docs、Google Workspace等谷歌产品,帮你管理数字生活。谷歌说,这个助手可以处理日常任务:整理通讯邮件主题、清点家庭库存、记录需要补货的物品,或者帮你规划和协调朋友的组团旅行。

    “谷歌在演示中举了一个非常偏向工程师思维的例子:你可以用它组织社区街区派对——好像这种事除了群聊或者发几封邮件之外还需要什么管理一样。”

    功能很多,但得先掏钱

    上面说的这些产品,很多还没正式上线,至少不会立刻向大众开放。目前谷歌的目标用户是重度用户:也就是订阅了每月100美元的Google Ultra计划的”AI信仰者”。

    美国地区的Google Pro和Ultra订阅用户今年夏天就可以用上信息智能体,Spark很快会向Ultra订阅用户开放。Halo(追踪Spark通知的功能)将在”今年晚些时候”推送给安卓用户。Daily Brief(每日简报)正在向美国的Ultra、Pro和Plus订阅用户逐步推出。

    Google I/O 2026 AI Agents
    Google I/O 2026 展示的AI智能体功能(图片来源:TechCrunch)

    这么多功能陆续上线之后,我们可以用AI智能体的入口会多到让人不知道从哪里开始用。但这得先付费。

    普通消费者为什么不买账?

    谷歌在这场活动上没能挽回口碑。每个演讲者上台间隙都在闪一些傻乎乎的AI生成图像,还放了一段很尬的AI生成动画,里面有类似肉桂Toast Crunch的会说话的Tensor芯片。

    在安卓眼镜的演示中,谷歌展示了这款设备(后续会支持拍照功能)如何用AI把用户拍的照片改成别的内容。演示内容是,演讲者拍了一张台下观众的照片,然后修改成头顶有一艘飞艇的样子,再发给自己的安卓手表。

    好吧,是有点意思,但为了给数据中心建新的输电线,有人家的房子要被强制征收拆掉,这值得吗?


    人们真正需要的是什么?

    人们需要的可不止是这些花里胡哨的小功能,才会接受如此剧烈的社会变化。

    往年的谷歌I/O会推出新的消费电子设备,比如Pixel手机、Nest Hub,还有新的安卓功能,比如2018年让所有人惊叹的餐厅、沙龙预订服务。那些技术都被定位成解决日常生活小麻烦的工具。

    现在这家科技巨头展示的是新模型(不过还没准备好发布的Gemini Pro 3.5没亮相),还有开发者平台,却基本忘了自己做的这些东西是给谁用的:普通老百姓。他们不想去记这东西叫Gemini还是Spark、Halo还是信息智能体,也不想知道要去哪里才能用上。

    这些人有真正想要解决的问题:他们要付账单、交房租,要加油、买groceries,还要在AI招聘系统因为一点技术细节就拒掉简历的环境里找工作。他们要平衡充满压力的生活,而最近科技的发展反而成了负担。

    AI智能体的真正价值是什么?

    如果谷歌真的调研过消费者的真实想法,就会发现,AI智能体其实可以降低屏幕使用时间。也就是说,不用花时间调研、整理、追踪信息和新闻,智能体可以接管这些日常任务,让用户离线去好好过现实生活。

    这个信息其实会引起消费者的共鸣,尤其是年轻人,他们现在正在追捧怀旧复古技术,通过”老人式”的爱好和手工艺来缓解压力,还正在通过放弃约会软件、参加线下活动来重新发现现实社交的力量。

    简单来说,谷歌没能成功推销AI智能体有多酷,原因有两个:一是没有演示智能体能为普通用户解决什么问题,二是把这些工具放在付费墙后面,限制了触达范围。