博客

  • 互联网正在为机器重构——AI智能体正在改写整个网络基础设施

    过去二十年,互联网一直是围绕人类行为设计的。人们搜索、点击、滚动、串流,这些动作有规律、可预测。但AI智能体不这么干活。它们能在几秒钟内发起一连串突发请求,同时调出十几个子智能体,疯狂查询数据库、检索文档、调用API,然后突然全部消失。这种流量模式,人类的网络基础设施从来没为它设计过。

    AWS悄悄改写了搜索数据库的底层的

    本周,亚马逊云科技(AWS)发布新一代OpenSearch Serverless——一个专门面向AI智能体负载设计的托管搜索和向量数据库。最核心的变化是:计算和存储解耦了。智能体发起任务时,算力可以在几秒内弹性扩容;智能体 idle 时,算力可以缩到零。客户不用再为空闲的计算资源付费。

    “智能体正从实验阶段走向生产环境,它们产生的流量模式,是之前的基础设施根本没考虑过的。”
    ——Tia White,亚马逊OpenSearch服务总经理

    之前的Serverless版本也有弹性,但存储和计算是绑定的,你至少得保留一个运行中的实例。说白了就是:哪怕你没在用,也得一直付停车费。新一代相当于改成了计时停车位——来了才计费,走了就归零。

    AI智能体概念图
    AI智能体正在改变互联网流量结构(图片来源:Getty Images)

    机器流量已经超过你想象

    Cloudflare的数据很说明问题:过去六个月, bots 流量已经占到整体HTTP流量的31%。其中AI爬虫、搜索引擎和AI助手加起来,约占所有bot请求的25%。Cloudflare高级产品经理Lai Yi Ohlsen预计,2027年上半年,非人类流量就会超过人类流量。

    这不只是在抢带宽。智能体的检索模式跟人类完全不一样——它们会并发查询数百个数据源,对延迟极度敏感,而且流量峰值毫无规律。传统的基础设施假设用户是”逐步浏览”的,但智能体是”瞬间爆发”的。

    整个行业都在跟

    AWS不是唯一一个在干这件事的。Databricks和Snowflake正在把自己重新定位为企业AI内存和检索系统;微软Azure最近也推出了针对AI智能体突发流量和多智能体共享内存的更新;Cloudflare上个月发布了面向智能体的持久化环境和即时扩展基础设施。

    Google I/O上周也释放了信号:用户很快就能把购物研究、行程预订、网页浏览等任务委派给AI系统。不管是面向消费者的AI智能体,还是企业内外部部署的智能体,机器对机器的流量正在指数级增长。


    这场基础设施的重构,本质上是为下一个十年做准备。当智能体成为互联网的主要”用户”,整个堆栈——从数据库到CDN,从API网关到身份认证——都得重新思考。目前看,大的云厂商已经跑起来了,但这一步才刚刚开始。

  • 2026年5月AI大模型密集发布:GPT-5.5、DeepSeek v4、Claude 4.6谁更胜一筹?

    GPT-5.5来了:OpenAI的又一次跳跃

    4月24日,OpenAI发布了GPT-5.5,官方描述是”迄今为止最智能、最直观的模型”。数字上的提升是实的:在Terminal-Bench 2.0测试中拿到82.7%,GDPval评测84.9%。

    但更值得关注的是它在Agentic coding(智能体编程)上的进步。写代码不再只是”补全下一行”,而是能自主规划多步骤任务、调用工具、自己debug。这对开发者来说,意味着AI编程助手真的从一个”聪明补全器”变成了”能一起干活的搭档”。


    DeepSeek v4:国产大模型的反击

    同一天,DeepSeek放出v4,推出Flash和Pro双版本。最炸裂的参数是1M+ token的超长上下文窗口——这意味着它可以一口气读完一整本技术手册,然后基于全书内容跟你对话。

    更妙的是它兼容OpenAI和Anthropic的SDK,开发者迁移成本几乎为零。加上本身就便宜,这波发布直接把”长上下文+低成本”的标杆拉高了。


    Claude Sonnet 4.6:接近Opus的性能,一半的价格

    3天后,Anthropic更新了Claude Sonnet 4.6和Haiku。核心卖点是”接近Opus级别的性能,但价格便宜得多”。对于已经在用Claude API做产品的团队来说,这个性价比提升是实打实的。

    这次更新还修了之前版本里推理不稳定和缓存出错的bug。对于生产环境用户来说,稳定性往往比基准测试分数更值钱。


    Google Gemini Pro & Flash:双版本策略的聪明之处

    Google也在同一天(4月27日)更新了Gemini Pro和Flash。Pro负责扛性能大旗,Flash负责低延迟和高并发场景。两个版本都支持1M token上下文窗口,多模态能力和推理能力都有明显提升。

    Google这波操作聪明在:不让用户做”性能vs成本”的单选题,而是两个版本各司其职。对于需要同时服务C端和B端的应用来说,这种组合很实用。


    IBM Granite 4.1:小参数模型的逆袭

    4月30日,IBM发布了Granite 4.1,参数只有8B,但性能居然能跟32B的MoE模型掰手腕。这件事传递的信号很清楚:堆参数不是唯一出路,数据质量和训练效率同样能打

    对于想在本地部署、或者推理预算有限的团队来说,这类小参数高性能模型是真正的香饽饽。大模型不一定非得”大”。


    四个趋势,定义接下来半年

    把这波发布潮放在一起看,有四个趋势已经很明显了:

    • 超长上下文正在变成标配。1M+ token从”炫技”变成”基础配置”,这会从根本上改变应用能做的事情——一次性处理超长文档、多轮对话不遗忘、复杂任务规划,都会变得更可靠。
    • 小参数模型崛起。DeepSeek v4和IBM Granite 4.1都在证明:聪明的训练比盲目的参数堆砌更有效率。这对降低推理成本、推动AI应用普及是好事。
    • Agentic能力成为新战场。从GPT-5.5到Claude 4.6,所有厂商都在强化”让AI不只是回答,而是主动完成任务”的能力。这是从”对话助手”到”智能代理”的关键一跃。
    • 监管压力在累积。欧盟AI Act的合规期限是2026年8月,没几个月了。技术在狂奔,但安全性和透明度基准测试的进度明显滞后。这波发布潮里,几乎每家都提到了”负责任的AI”,但真正做到多少,还得看。

    对开发者意味着什么

    如果你在基于这些模型做应用,有几个方向值得认真考虑:一是重新设计应用架构,把1M+ token上下文窗口的能力用起来;二是关注Agentic模式,从”用户输入-模型回答”的单向模式,转向多步骤、带工具调用的任务执行模式;三是成本优化,小参数模型的性能提升意味着你有更多选择,不一定非得用最贵的那个。

    2026年5月的这波模型发布,表面上是各家在比拼基准测试分数,实际上是AI从”技术演示”走向”大规模应用”的转折点。谁能把模型能力稳定、低成本、安全地交付到用户手里,谁就赢了。

  • MIT发布2026年AI十大趋势:从人形机器人训练到反AI运动

    人形机器人训练数据:动作捕捉的新战场

    就像人类的文字成了大语言模型的养料,现在连人类怎么动、怎么走路、怎么搬东西,都被大规模收集起来训练人形机器人。这事儿听起来有点怪,但确实在发生——有公司专门建了”训练中心”,让工人一遍遍重复同样的动作,就为了给机器人提供学习素材。还有更离谱的”提线木偶”模式:远方的人类通过远程操控,手把手教机器人怎么做事。

    这种做法投入巨大,但没人能保证一定成功。可资本还是在砸钱,因为这可能是让机器人真正”活过来”的唯一路径。


    大语言模型没有死,它正在进化

    去年大家还在感叹大语言模型”改变了世界”,今年从业者已经在琢磨下一个突破在哪里。容易摘的果子已经摘完了,模型的提升越来越难,但这不意味着LLM要退出历史舞台。

    相反,它正在往两个方向走:一个是把现有的能力压榨到极致,另一个是在寻找全新的架构突破。这条路不好走,但走通了就是下一个时代。


    AI让诈骗变得便宜又高效

    以前想搞网络诈骗,还得学点技术、花点钱买工具。现在有了生成式AI,门槛几乎降到了地板上。黑客可以用AI批量生成钓鱼邮件,连语法错误都不一定有;换脸视频让冒充别人变得轻而易举;甚至连打电话诈骗都有AI语音代劳。

    AI正在让网络犯罪变得更便宜、更快、更容易——这对普通人来说不是什么好消息。


    世界模型:让AI理解物理世界

    大语言模型擅长处理文字,但要让AI进入真实物理世界——比如让机器人知道”杯子掉地上会碎”这种常识——就需要”世界模型”。这类系统试图让AI理解外部世界的运作规律,而不仅仅是预测下一个词。

    如果这条路走通了,AI就不再只是聊天工具,而是能真正在现实世界里做事情的智能体。这可能是下一波AI浪潮最核心的突破点。


    智能体编排:从单打独斗到团队协作

    早期的AI智能体只能干一件事——比如帮你订个外卖,或者写段代码。但现实世界里的问题往往是复杂的,需要多个步骤、多种能力配合。

    现在的方向是”智能体团队”:一个负责搜索、一个负责推理、一个负责执行,像人类团队一样分工协作。这比单个超级智能体更灵活,也更容易落地。很多公司已经在往这个方向押注了。


    中国的开源赌注:免费模型赢来的全球影响力

    DeepSeek、通义千问、智谱……中国实验室过去一年里密集开源了一大批高质量模型,而且真的好用。这让全球开发者突然意识到:原来不用OpenAI也能做出厉害的东西。

    但这种”免费送”的策略能不能持续,没人说得准。训练模型太烧钱了,光靠口碑和开发者好感,账算得过来吗?不管怎样,全世界已经在基于中国的基础模型搞开发了,这本身就已经改变了格局。


    AI科学家:当AI开始做科研

    有些公司已经在开发能自主做科研的AI——不是帮你查文献,而是真的能设计实验、分析数据、甚至提出新假设。支持者说,这种AI合作者有一天可能会达到诺贝尔奖的水平。

    这话听起来夸张,但想想十年前大家也觉得”AI下围棋赢人类”是天方夜谭。科学发现的门槛正在被重新定义。


    反AI运动:当大家开始说”够了”

    过去几年AI基本上是想怎么发展就怎么发展,监管跟不上,大家也沉浸在”新技术好厉害”的兴奋里。但现在这股浪潮遇到了真正的阻力。

    艺术家不满自己的作品被拿来训练模型,工会担心AI抢走工作,保守派和自由派居然在”限制AI”这件事上找到了共同点。这股反对力量还在早期,但已经在一些具体问题上取得了小胜利。AI的无约束时代,可能正在走向终点。


    写在最后

    MIT Technology Review这份清单的价值不在于预测未来,而在于帮我们看清当下——哪些方向是真的在动,哪些只是炒作。人形机器人、世界模型、智能体编排,这些是当前最值得盯着的变化;而AI安全、监管反弹、开源商业化困境,则是这个行业必须面对的考题。

    2026年的AI,已经不再是”能不能做出来”的问题,而是”应该怎么用、谁来管、往哪里去”的问题。

  • Screenshot to Code:72.7K Stars!截图秒变代码,让前端开发效率提升10倍

    Screenshot to Code:72.7K Stars!截图秒变代码,让前端开发效率提升10倍

    Screenshot to Code 演示

    上传截图,AI自动生成对应代码


    🚀 项目简介

    Screenshot to Code 是一款AI驱动的开发辅助神器,只需上传一张网页截图、线框图或Figma设计稿,即可自动生成干净的可用代码。支持 HTML+CSS、React、Vue、Bootstrap 等多种技术栈,让设计稿到代码的转换从数小时缩短到几秒钟。


    ⚙️ 安装要求和过程

    💡 环境要求

    • Python 3.9+(后端依赖)
    • Node.js 18+(前端依赖)
    • Poetry(Python 依赖管理,推荐)
    • Docker(可选,快速部署方式)
    • API密钥:OpenAI / Anthropic / Google Gemini(三选一即可)

    🚀 快速安装步骤

    方式一:本地源码运行(推荐开发调试)

    # 1. 克隆项目
    git clone https://github.com/abi/screenshot-to-code.git
    cd screenshot-to-code
    
    # 2. 配置API密钥(后端)
    cd backend
    echo "OPENAI_API_KEY=sk-your-key" > .env
    echo "ANTHROPIC_API_KEY=your-key" >> .env
    echo "GEMINI_API_KEY=your-key" >> .env
    
    # 3. 安装依赖并启动后端
    poetry install
    poetry run uvicorn main:app --reload --port 7001
    
    # 4. 新终端启动前端
    cd ../frontend
    yarn
    yarn dev

    启动后访问 http://localhost:5173 即可使用。

    方式二:Docker 一键运行(推荐快速体验)

    # 在项目根目录执行
    echo "OPENAI_API_KEY=sk-your-key" > .env
    docker-compose up -d --build


    ✨ 核心功能

    🎯 截图转代码

    上传任意网页截图或设计稿,AI自动分析布局结构,生成对应前端代码,支持多种技术栈自由切换。

    🔄 多模型支持

    内置支持 Claude Opus/Sonnet、GPT-4.5/4.1、Gemini 3 Flash/Pro 等顶级模型,也支持自定义API兼容接口。

    🛠️ 多技术栈输出

    支持 HTML+CSS、HTML+Tailwind、React+Tailwind、Vue+Tailwind、Bootstrap、Ionic+Tailwind、SVG 等主流技术栈。

    🎬 录屏转原型(实验性)

    支持上传网站操作录屏视频,AI直接生成可交互的功能原型,非常适合产品快速验证和演示。

    🔒 隐私优先,本地可控

    支持通过 Ollama 运行本地开源模型,所有数据不出本地;也可自托管 Docker 版本,完全掌控数据隐私。


    🎬 典型使用场景

    📌 场景一:设计师交付前端代码

    设计师完成 Figma 设计稿后,开发人员只需截图上传,即可快速获得可运行的前端代码骨架,大幅减少从设计到代码的重复劳动。实测可将一个中等复杂度页面从 2小时 缩短到 30秒 出初稿。

    🎓 场景二:学习前端的新手临摹练习

    想临摹一个漂亮的网页但不懂怎么实现?截一张图上传,AI 帮你生成完整代码,新手可以在生成的代码基础上学习和修改,快速提升前端技能。

    🚀 场景三:产品快速原型验证

    产品经理用录屏功能记录期望的操作流程,Screenshot to Code 直接生成可交互的 HTML 原型,团队可以在此基础上快速评审和迭代,不需要写一行代码。


    💎 推荐理由

    我第一次用这个工具的时候,简直惊呆了——随手截了一张纽约时报首页的截图上传,不到 20秒 就生成了一个几乎一模一样的 HTML 页面,连字体、间距、配色都还原得非常到位!

    最让我惊喜的是它对 Tailwind CSS 的支持——生成的代码不是一堆乱七八糟的行内样式,而是结构清晰、可直接维护的 Tailwind 类,这对实际项目来说太重要了。

    当然也要说一下不足:复杂交互(比如多步骤表单、动画过渡)还是需要人工补充;如果使用 OpenAI/Claude 的 API,每次生成会产生一定的 API 费用(不过项目支持 Ollama 本地模型,可以零成本使用)。总体来说,这是目前 「设计稿转代码」 这个细分领域里最成熟、最好用的开源方案,没有之一。


    📥 下载地址


    — 由 WorkBuddy AI 自动采集撰写 · 开源项目系列第43期 —

  • Groq转身求融资6.5亿美元——英伟达200亿非收购之后,这家芯片公司要去哪里

    Groq转身求融资6.5亿美元——英伟达200亿”非收购”之后,这家芯片公司要去哪里

    Groq这个名字你可能还不熟悉,但在AI芯片圈子里,他们是这几年最让人看不懂的公司之一。

    事情是这样的:2025年12月,英伟达和Groq签了一笔200亿美元的交易——但这不是收购。部分Groq的核心工程师去了英伟达,Groq的硬件技术授权给英伟达使用。对Groq的投资者来说,这相当于一次大规模退出,拿到了现金回报。

    现在,Axios爆料说Groq正在向现有投资者募集6.5亿美元新资金,用来做一件完全不同的事情:AI推理云(inference neocloud)。

    从造芯片到卖推理,这步棋走对了吗

    训练AI模型是一次性的大工程,而推理是每次用户发一条消息都要发生的事情——这个需求比训练大得多,也持续得多。Groq的判断是:与其和英伟达在训练芯片上硬碰硬,不如把赌注押在推理基础设施上。

    他们的逻辑有一定道理。推理市场确实在爆发,但目前这个赛道已经有大量玩家:亚马逊、谷歌、微软的云推理服务,加上无数中小型推理优化公司。Groq能不能在这片红海里杀出来,关键看他们的技术是不是真的比竞争对手快很多——而且快到客户愿意迁移的程度。

    据Axios报道,这轮融资其实有一定的”保底”机制:现有投资方Disruptive和Infinitium已经承诺,如果其他老股东不愿意按比例跟投,这两家会补足6.5亿美元的额度。换句话说,这轮钱基本上是有保障的。

    管理层动荡,时机有点微妙

    Groq目前由临时CEO Adam Winter和临时CFO Matt Eng领导。创始人Jonathan Ross的去向,在这笔新融资的背景下变得值得关注——如果公司战略方向发生了根本性转变,创始团队和投资者的利益是否还完全一致,这是一个问号。

    从外部看,这家公司的身份定位有点模糊:它既不像纯粹的芯片公司(因为把技术授权给了英伟达),也不像纯粹的云服务商(因为之前的主业是造芯片)。”推理云”这个方向能不能让市场重新给它一个清晰的估值逻辑,这轮融资之后大概会见分晓。


    英伟达的200亿美元交易,从结果上看是一个巧妙的”不开收购之名的收购”——拿到了技术和人才,但不用承担整合一家独立公司的全部复杂性。对Groq来说,拿到了一大笔现金,但也需要回答一个问题:接下来的Groq,到底是一家什么公司?

    6.5亿美元的新融资如果顺利完成,我们大概很快就能看到他们的推理云产品正式亮相。是骡子是马,到时候牵出来遛遛就知道了。

  • Anthropic砸650亿美元融资,估值逼近1万亿——这家公司到底在押什么

    Anthropic砸650亿美元融资,估值逼近1万亿——这家公司到底在押什么

    如果你最近关注AI融资圈,这条消息大概已经刷过你的屏了。Anthropic在5月28日官宣完成H轮650亿美元融资,投后估值9650亿美元——离1万亿只差一小步。

    这个数字什么概念?OpenAI最新一轮融资后的估值是7300亿美元,Anthropic这一轮直接把门槛抬高了两个身位。

    钱从哪里来,又往哪里去

    这轮融资的领投方阵容相当豪华:Altimeter Capital、Dragoneer、Greenoaks、红杉资本联合领投。跟投名单里你能看到黑石、富达、淡马锡、Baillie Gifford这些名字——基本上就是全球最有钱的那批机构排队送钱。

    Anthropic说这笔钱主要花在三件事上:推进安全研究、扩大算力储备、把产品铺到更多客户那里去。听起来像是标准融资说辞,但仔细看他们最近签的算力合同,你就知道这个”扩大算力”不是开玩笑的。

    Anthropic CFO Krishna Rao的说法是:”Claude对全球客户来说越来越不可或缺了。这笔融资帮我们对需求做好准备,保持在研究前沿,把Claude推到更多工作场景里。”

    算力布局比你想的更激进

    真正值得关注的是他们悄悄签下的一堆算力协议。和亚马逊签了最多5吉瓦的新增算力,和谷歌+博通签了5吉瓦的下一代TPU协议,还从SpaceX那里拿到了Colossus 1和Colossus 2的GPU使用权。

    这些合同加起来意味着什么?意味着Anthropic从根本上解决了”模型训练出来但跑不起来”这个AI公司最头疼的问题。算力供给锁死了,接下来就是产品和销售的事了。

    还有一个细节:Claude目前是全世界第一个在亚马逊AWS、谷歌云、微软Azure三大云平台上都能用到的前沿模型。AWS是主要训练合作伙伴,但这个”三云平台通吃”的站位,OpenAI其实并没有完全做到(微软的排他性一直是个问题)。

    收入数字终于肯说了

    Anthropic这轮融资最硬的底气来自收入。2026年5月,他们的营收运转率(run-rate revenue)已经突破47亿美元。这个数字是从2月份G轮融资之后涨上来的,也就是说在不到三个月里,收入规模又上了一个台阶。

    企业客户在用Claude处理实际工作流——不是试用,是真的把业务跑在上面。Anthropic的说法是Claude正在”学习企业实际运营的逻辑”,包括业务上下文、流程和判断逻辑。这话听起来有点玄,但翻译成人话就是:企业用得越深,切换成本越高,Anthropic的护城河就越宽。


    投资人这边当然也说了一堆好话。红杉资本合伙人Alfred Lin说初创公司和全球5000强都在部署Claude处理复杂工作流。Dragoneer的Marc Stad说”这项技术的开发和商业化仍处于最早期的阶段”——这话翻译过来就是:现在进场还不晚,涨的空间还很大。

    估值9650亿美元到底贵不贵?如果你觉得Claude值得比OpenAI高,那这个估值就有它的逻辑。如果你觉得大模型赛道接下来会卷价格战,那这个故事就不好说了。但至少从现在的数据来看,Anthropic在企业市场上的渗透速度,确实比大多数人的预期要快。

  • 程序员拒绝在没有 AI 的情况下工作——但这可能会反过来坑了他们

    程序员拒绝在没有 AI 的情况下工作——但这可能会反过来坑了他们

    2026 年有个挺有意思的发现:你现在很难让开发者放下 AI 编码工具去干活了。

    AI 确实能帮程序员更快地生成代码,但研究人员警告说,它产出的代码质量未必更好,这可能会给开发者的未来带来麻烦。

    研究者遇到的尴尬

    2026 年 2 月,权威 AI 研究实验室 METR 发布了一个令人意外的发现:大多数开发者甚至不愿意在没有 AI 的情况下完成实验任务。

    METR 原本想更新他们在 2025 年做的一项关于 AI 编码生产力的开创性研究。那项研究里,研究人员测量了开源开发者手动完成任务和使用 AI 完成任务的耗时。结果挺打脸的——开发者自称 AI 提升了生产力,但实际上 AI 拖慢了他们的工作速度。没错,AI 生成代码更快,但之后他们需要额外的时间查找和修复错误、引导 AI 工作、还要等 AI 完成任务。

    当 METR 着手重复这项实验时,他们没能成功。研究人员坦承,开发者不愿意参与实验,”因为他们不想在没有 AI 的情况下工作”,哪怕只是为了做研究。

    最后 METR 在 5 月发布了一份调查,让技术员工自行报告 AI 带来的生产力提升。毫不意外,大家认为自己对公司而言的价值是原来的两倍。

    tokenmaxxing 的代价

    最近关于 “tokenmaxxing”(过度消耗 AI token)的高昂成本的头条新闻,加上一些新研究,让这种自我认知变得可疑。

    Tokenmaxxing 用一个人消耗的 token 数量作为 AI 生产力的代理指标,是 2026 年迄今为止的趋势,而且这个趋势可能已经快到头了。

    据《金融时报》报道,亚马逊关闭了其内部名为 Kirorank 的 token 追踪排行榜,原因是员工为了刷榜过度使用 AI 代理,导致成本飙升。员工的行为证明,AI 的使用并不自动等于生产力的提升。

    据 The Information 报道,Uber 在 2026 年前四个月就用完了全年的 AI 预算。首席运营官 Andrew Macdonald 最近在播客中表示,这类支出并没有带来项目或生产力的可衡量提升。

    代码维护的隐藏成本

    程序员兼作家 James Shore 在一篇在 Hacker News 上疯传的博客文章中指出,AI 生成的代码不一定能减少后续代码维护需求,甚至可能增加这类需求。

    你现在写代码的速度是以前的两倍?最好希望你的维护成本也减半了。不然你就惨了,你是在用短期的速度提升换取永久的债务。

    还有其他证据表明 AI 会增加代码维护的麻烦。可靠性工程代理初创公司 Entelligence AI 的创始人兼 CEO Aiswarya Sankar 的一条病毒推文称,公司 44% 的 token 支出都花在了修复 AI 生成的 bug 上。与此同时,代码审查工具公司 CodeRabbit 表示,他们分析了开源拉取请求,发现 AI 生成的代码出现问题的概率是人工代码的 1.7 倍。

    诚然,这些都是试图销售 AI 代码审查工具的机构的自利统计。但独立研究人员也发现了这类问题。新加坡管理大学的研究人员 4 月发布的一份报告警告称,”AI 生成的代码可能会给真实的软件项目带来长期维护成本”。

    那怎么办

    既然程序员如此热爱他们的 AI 助手,解决方案是什么?

    那些想向你推销 AI 编码代理的人说,开发者可以用 AI 编码代理来完成修复代码这类枯燥繁琐的工作,修复速度和 AI 生成代码的速度一样快。这是 Cognition(AI 编码代理 Devin 的开发商)的创始人兼 CEO Scott Wu 的建议。

    但就连他也承认,虽然 Devin 可以独立工作,但目前它的技能水平在初级和中级程序员之间,具体取决于任务类型。这不是一个可以交办后就不管的解决方案。

    新加坡管理大学的研究人员提出了更偏向人工的方案:程序员需要像熟悉自己最爱的编程语言一样,深入了解 AI 擅长和不擅长哪些任务。他们需要为 AI 设计强大的质量保障体系,并且必须像对待初级开发者一样,仔细审查 AI 的工作成果。

    同时,研究人员和 Wu 都表示,人类仍然应该负责软件架构、安全设计这类大局层面的工作。


  • OpenAI Codex 登陆 Windows:AI 现在能直接操控你的电脑了

    OpenAI Codex 登陆 Windows:你的电脑现在可以被 AI 直接操控了

    OpenAI 的 Codex 之前在 macOS 上已经能用了,现在它的 “computer use”(电脑控制)功能正式来到 Windows。简单说,就是这个应用可以”看到”你的屏幕,然后在你的设备上直接执行各种任务。

    OpenAI 同时还说了一件事:哪怕你不在电脑旁边,也可以用 ChatGPT 应用来管理和查看 Codex 的任务进度。这对需要跑长任务的开发者来说挺实用的。

    Codex 的 computer use 功能本质上是让 AI 能够像人一样操作电脑——移动鼠标、点击按钮、输入文字、截图查看结果。

    为什么这个功能重要

    以前你想让 AI 帮你操作电脑,要么得手动把信息复制粘贴过去,要么得用专门的 RPA 工具。现在 Codex 能直接”看”屏幕,相当于给了 AI 一双眼睛和一只手。

    对开发者来说,这意味着一些重复性操作——比如跑测试、部署代码、处理批量文件——可以真正交给 AI 代理去完成,而不只是帮你写代码。

    跨平台的意义

    Windows 在全球桌面操作系统里占的市场份额比 macOS 大得多。Codex 登陆 Windows,意味着 OpenAI 的 AI 编程工具能触达的开发者数量会上一个数量级。

    这也和现在 AI 编程工具的竞争态势有关。Cursor、Windsurf、GitHub Copilot 都在抢开发者桌面,OpenAI 直接把 Codex 做成能操控整个系统的代理,算是一条差异化路线。


    目前这个功能还在推送中,Windows 用户可以在 Codex 应用里检查更新。如果你之前已经在用 macOS 版的 computer use,体验应该是差不多的——AI 会请求屏幕录制权限,然后就能”看到”你的桌面了。

  • 微软正在开发自己的 AI 超级应用,要把所有 Copilot 装进一个入口

    微软正在悄悄打造一款 AI 超级应用,目标是把散落在各个产品里的 Copilot 工具全部塞进一个入口。这件事背后的动机其实很直接——用户被一堆 Copilot 搞烦了,不知道该用哪个,微软自己也清楚这个问题拖不下去了。

    一个入口管所有 Copilot

    据《财富》杂志的独家报道,这款超级应用要把 GitHub Copilot(写代码的)、Copilot 聊天机器人(聊天的)、Copilot Cowork(协同工作的),还有一个内部叫 Autopilot 的新Agent工作流功能,全部整合到同一个界面里。

    微软内部给这个项目喊的口号是”交付一个 Copilot”——不管你用的是哪个场景,进同一个应用就够了。

    这个项目由今年3月刚被提拔的 Copilot 负责人 Jacob Andreou 牵头。消息人士透露,应用的部分元素可能会在下周的微软 Build 开发者大会上被提到,但完整展示还要等一段时间。微软的计划是夏末把这款超级应用推出来。


    微软的 Copilot 困局

    说起来有些尴尬,微软是最早重金押注 AI 的科技公司之一,和 OpenAI 绑定的130亿美元合作曾经让它在赛道上遥遥领先。但这几年竞争对手涌进来太快,微软反而把早期的领先优势给弄丢了。

    Copilot 品牌本身的问题也不少——历史上它一直依赖 OpenAI 的模型,而这些模型在基准测试里一度被竞争对手甩在后面;微软自己研发的模型又进展缓慢;更让用户困惑的是,微软推出了好几个不同版本的 Copilot,消费端和企业端是分开的,内部团队也是各搞各的,始终没有一个统一的 AI 愿景。

    现在 Microsoft 365 有4.5亿用户,但付费使用 Copilot 的比例不到4.5%。GitHub Copilot 虽然有超过470万付费订阅用户,但也正面临 Cursor 和 Anthropic Claude Code 的猛烈追击。


    不是唯一在搞超级应用的公司

    微软当然不是唯一想做超级应用的公司。它的合作伙伴兼竞争对手 OpenAI 早就有类似打算,想把 ChatGPT、Codex 和浏览器整合进同一个入口。埃隆·马斯克的 X(原 Twitter)也一直在往”通信+媒体+商务”的超级应用方向靠。Uber 和 Meta 也在把越来越多的服务塞进单个应用里。

    对微软来说,这款超级应用能不能成,很大程度上取决于它能不能真正把割裂的 AI 产品线整合起来。CEO 纳德拉过去一年一直在调整高管团队,试图让公司在 AI 赛道上把丢掉的优势追回来。这款超级应用就是他们给出的最新答案。

  • OpenAI Codex 现已能控制你的 Windows 电脑

    OpenAI 的 Codex 在 Mac 端上线之后,现在终于轮到 Windows 用户了。这次更新把 computer use 功能带到了 Windows 平台,意思是这个应用现在能”看见”你的屏幕,还能在你的设备上直接执行各种任务。

    不用坐在电脑前也能管任务

    OpenAI 同时表示,你现在可以通过 ChatGPT 应用在离开电脑的时候管理和查看 Codex 的任务执行情况。这对需要跑长任务的开发者来说挺实用的——不用一直守在屏幕前,手机上就能看进度。

    Codex 的 computer use 功能正式登陆 Windows,AI 编程助手从”帮你写代码”进化到”直接帮你操作电脑”。


    Mac 端先跑,Windows 跟上

    事实上 Codex 的 computer use 功能在 Mac 上已经跑了一阵子了,这次 Windows 版本的到来算是补齐了主流桌面平台的覆盖。OpenAI 在 X(原 Twitter)上还专门发了条推文:”Windows users, this one’s for you.”,语气倒是挺轻松的。

    这个功能本质上是让 AI 能够理解屏幕内容并模拟人类操作——点按钮、填表单、切换窗口,都在这个能力范围内。对于需要做 UI 自动化测试或者批量操作的场景,这比传统的脚本方式要灵活得多。


    和 Claude 的 computer use 打对台

    Anthropic 的 Claude 早就有了类似的 computer use 能力,现在 OpenAI 把这块能力也补上了,两个头部玩家在”让 AI 直接操作电脑”这个方向上的竞争又多了一个维度。区别可能在于 OpenAI 把这套能力和 Codex 的编程场景绑得更紧——你写的代码,Codex 可以直接帮你跑起来、点按钮、看结果。