标签: AI技术

  • Google推出Pics应用:AI设计工具赛道又多了一个重量级玩家

    Google在今年的I/O大会上扔出了一个不太起眼、但挺有意思的新产品——Pics。这是一个跑在Google Workspace里的AI设计和图像生成应用,你可以直接把它理解成”Google版的Canva”,或者”AI版的Photoshop入门工具”。

    这个说法可能有点过于简化了。Pics真正想做的,是让完全不懂设计的人也能用AI生成像样的视觉内容——社交媒体配图、活动邀请函、营销物料、产品原型图,这些都能通过简单的文字描述搞定。

    为啥要做这个?因为改图太麻烦了

    Google在发布Pics的时候说了一个很接地气的痛点:现在的AI图像生成工具,生成质量已经不错了,但如果你想改图中某一个细节,基本没戏——你得重新写一个提示词,然后祈祷这次AI别把其他部分也改掉。

    Pics的思路是:生成图像只是第一步,关键是让图像里的每个元素都可以单独编辑。你可以用新的提示词改局部,也可以直接点击想改的地方写评论——就像在Google Docs里给同事提修改意见一样。

    这个设计逻辑其实挺聪明的。它把AI图像生成从”抽奖式创作”变成了”可迭代设计”,降低了试错成本。底层驱动编辑功能的是Gemini,而图像生成本身则由Nano Banana 2支持——Google说这个模型在精确文本渲染、现实世界知识和细节输出上表现不错。

    Google Pics AI设计应用界面展示
    Google Pics应用界面,用户可通过文字提示生成并编辑设计

    对手不只是Canva

    Google做这个产品,明面上是冲着Canva去的,毕竟Canva这几年在AI设计赛道跑得挺快。但暗地里,Google可能更在意的是Anthropic最近推出的Claude Design——用Claude直接生成可编辑的设计稿,这个思路跟Pics有点像。

    Google的优势在于生态整合。Pics原生嵌入Google Workspace,你可以在Docs、Slides、Sheets之间无缝协作,设计稿可以直接丢进幻灯片里用。对于已经离不开Google办公套件的企业和学校来说,这个整合黏性挺强的。


    谁能用?什么时候能用?

    目前Pics还在测试阶段,I/O期间有一小批测试者拿到了内测资格。Google说今年夏天会先向AI Ultra订阅用户开放,后续再逐步推给更广泛的用户。

    这个节奏其实透露了Google的心思:AI设计工具不只是”做个好用的产品”那么简单,它是拉动高价AI订阅的重要手段。如果你能让用户觉得”每个月花100美元买Ultra,就为了用Pics做图”,那这个订阅就值了。

    当然,最终Pics能不能打,还得看实际体验。AI生成设计这个赛道,嘴上说说都挺厉害,真要做到”生成即可用”的程度,还有不少坑要填。

  • Cursor发布Composer 2.5:不换底座追上Opus 4.7,成本仅1/10

    Cursor这次真的被我急了。过去几个月,Claude Code抢走了大量开发者注意力,Anthropic那帮人做的编程助手不仅能力强,还能以Cursor根本拿不到的价格直接服务用户。相当于Cursor一边和Claude Code竞争,一边还得向Anthropic付钱用他们的模型——这生意怎么算都别扭。

    5月18日,Cursor扔出了Composer 2.5。有意思的是,他们没换底座模型,仍然用着月之暗面的Kimi K2.5,但把85%的计算预算全部砸进了后训练。训练数据量是上一代的25倍,强化学习轮次拉满。结果在SWE-Bench Multilingual上拿到79.8%,和Claude Opus 4.7的80.5%几乎贴着跑。


    成本才是真正的杀手锏

    Composer 2.5每百万输入token收费0.50美元,输出2.50美元。达到同样性能,OpenAI和Anthropic的竞品要花差不多10倍的钱。Cursor自己做的effort curve显示,用不到1美元的单任务成本就能在CursorBench v3.1上拿到63%的成绩,而Opus 4.7和GPT-5.5得花好几美元才能摸到这个线。


    三个关键技术改进

    Cursor搞了三个关键改进。第一个是带文本反馈的定向强化学习——模型跑长任务时,不是等整个任务结束才给奖励信号,而是在出错的地方直接插入提示(比如工具调用失败时提醒”Available tools…”),让模型立刻知道哪步做错了。

    第二个是大规模合成数据,用”功能删除”法生成训练样本:从可运行代码库里删掉某个功能,让模型重新实现,用测试通过与否作为奖励信号。

    第三个是Sharded Muon优化器,分布式跑Newton-Schulz正交化,1T参数模型单步优化只需0.2秒。


    马斯克确认用Colossus 2训练

    马斯克在推特上转发了Composer 2.5的发布,还透露这模型部分跑在Colossus 2超算上训练。Cursor已经宣布下一代模型要用Colossus 2的百万H100等效算力,计算量是现在的10倍。按照这个节奏,Anthropic和OpenAI在编程模型上的定价优势,可能撑不了太久。

    AI编程工具市场正在分裂成两个阵营:一边是模型厂商自己做工具(Anthropic的Claude Code、OpenAI的Codex),另一边是独立工具厂商(Cursor、Warp、Zed)。独立厂商的命门是上游模型依赖,Cursor这次证明了一件事:你不一定要自研底座模型,后训练+合成数据+强化学习这套路,足以在垂直场景追平顶级模型。

  • Google I/O 2026全记录:Gemini 3.5、AI搜索和智能眼镜全部到位

    Google I/O 2026的主题只有一个:把Gemini塞进你数字生活的每一个角落。这场发布会5月19日开幕,整整两天的议程里,几乎没有哪个产品没被AI重新做一遍。

    搜索的”十个蓝色链接”时代正式结束

    搜索率先被改造。新搜索框支持长对话式查询,还能给出AI驱动的查询建议,你甚至可以往搜索框里直接拖文档、图片、视频和Chrome标签页。AI Overviews(AI概览)的月活已经摸到25亿,对话式搜索模式的月活也有10亿。

    信息代理(information agents)会在后台7×24小时帮你跑任务,生成式UI即时生成交互式视觉内容,背后由Gemini Flash 3.5驱动。出版商的日子估计不太好过了——referral流量还会继续掉。

    Gemini Flash 3.5驱动的搜索,已经不再是”搜完给你十个链接”的逻辑,而是直接帮你把事情做完。

    Gmail现在能跟你对话了

    Gmail Live语音交互模式在I/O上亮相,直接说话就能查邮件、提取行程、找学校通知。不用再盯着列表一页页翻。Workspace这边还有个AI图像生成应用叫Google Pics,支持点击图片局部标注修改需求,不用把提示词全部重写一遍,背后跑的是Gemini和Nano Banana 2模型。

    Gemini Spark:常驻后台的AI代理

    最值得一提的是Gemini Spark。这不是你叫它才动一下的聊天机器人,而是一个常驻后台的AI代理,能自动写完邮件、生成学习指南、监控订阅费用,还能对接Workspace、Canva、OpenTable这些第三方应用。

    硬件:XR眼镜合作款全部亮相

    Android XR眼镜的合作款全部亮相——三星、Gentle Monster、Warby Parker的版本都出来了,计划2026年年内发布。谷歌自研的Project Aura眼镜也更新了,计算单元更强,加了指纹解锁,还有新的充电盒设计。

    Wear OS 7也有更新,加入了类似iPhone的”实时更新”功能,手表上能同步快递、赛事比分等动态信息,还能查看AI代理的自动化任务进度。

    定价:Ultra订阅拆分两档

    谷歌把AI订阅Ultra拆成了100美元/月和200美元/月两档,200美元那档包含Project Genie世界模型的访问权限。这个定价明显在对标OpenAI Pro,谷歌这次是真的在全栈铺开,而不只是做个 benchmark 冠军。


  • MIT发布2026年十大AI趋势:人形数据、智能体协作、中国开源押注

    MIT发布2026年十大AI趋势:人形数据、智能体协作、中国开源押注

    MIT Technology Review 2026年十大AI趋势
    MIT Technology Review首次发布年度AI趋势清单

    MIT Technology Review在2026年4月发布了首次年度AI趋势清单,从人形机器人训练数据、AI加速诈骗、武器化深伪,到多Agent协作与中国开源押注,10个正在发生的AI趋势逐一解析。这份报告旨在剔除行业泡沫,精准识别那些具有实质影响力的技术、新兴趋势与强大运动。

    人形机器人训练数据成新石油

    就像人类文本成为大语言模型的训练数据一样,人类运动视频正被大规模收集用于训练人形机器人。从工人重复完成任务的”训练中心”,到被海外陌生人远程操控的机器人,这是一项没有成功保障的奇特尝试。这个方法是否有效,业界还在观望。

    大语言模型仍有巨大挖掘空间

    大语言模型曾风靡全球,现在所有AI从业者都在追逐下一个突破性技术。虽然容易实现的应用场景已经基本被开发,但大语言模型不会退出舞台。这项技术仍有巨大的挖掘空间,LLMs+的时代才刚刚开始。

    AI正在降低诈骗分子和黑客的准入门槛,让他们攻击目标的速度更快、成本更低、操作更容易。与此同时,武器化深度伪造的威胁已经成为现实。

    世界模型让AI理解物理世界

    AI公司希望构建能够理解外部世界的系统。如果这一目标实现,将克服大语言模型的局限性,帮助AI进入物理环境。这个世界模型(World models)被认为是下一代AI系统的关键方向。

    智能体协作取代单打独斗

    第一代AI智能体只能运行浏览器或编写代码片段,且只能单独行动。接下来将出现能够协作完成更复杂目标的智能体团队。多Agent协作(Agent orchestration)将是2026年AI应用落地的重要方向。


    中国开源模型赢得全球开发者好感

    免费开放前沿模型让中国实验室获得了全球信誉和开发者的广泛好感。这种方式是否具备财务可持续性尚不可知,但全球开发者已经在基于中国的基础模型进行开发。中国在开源AI领域的布局正在产生实质影响力。

    AI科学家的想象与现实

    学术界和企业都在开发能够自主完成研究任务、与科学家作为真正协作伙伴共事的智能体。有人认为这些AI合作科学家未来能够达到诺贝尔奖级别的研究高度。人工智能科学家(Artificial scientists)如能实现,将彻底改变科研范式。

    与此同时,全球范围内正在形成一股强大的AI反对浪潮。从保守派到自由派,从艺术家到工会,活动人士的势头正在上升,并且已经开始取得小的胜利。AI的快速发展正在遭遇越来越强的阻力。

  • 谷歌I/O 2026倒计时:Gemini轻量升级,AI眼镜重启硬件线

    谷歌I/O 2026倒计时:Gemini轻量升级,AI眼镜重启硬件线

    谷歌I/O 2026开发者大会
    2026年谷歌I/O开发者大会将于5月19-20日举行

    2026年谷歌I/O开发者大会今天(5月20日)正在加州山景城举行。这次大会的核心看点很明确:新一代Gemini模型和Android XR智能眼镜。距离上次谷歌发布Gemini 3.1 Pro已经过去三个月,业界对新版本的期待值拉满。

    Gemini模型不会跨越式迭代

    综合多方消息,谷歌这次大概率不会发布Gemini 4.0。按照约3-4个月的迭代节奏,上一代Gemini 3是2025年11月发布的,到现在才半年。更可能的情况是推出Gemini 3.2或3.5,性能大致与OpenAI近期发布的GPT-5.5相当。

    新一代模型的技术突破方向值得关注——它侧重Agent任务能力提升,而不是推理能力。具体来说,新模型预计将大幅提升上下文处理能力,并着重优化端侧轻量化表现。这意味着AI功能能够适配更多中低端安卓机型,真正服务于谷歌庞大的移动生态。

    谷歌一直想把Gemini更深入地融入其生态系统。这次大会上,我们可能会看到Gemini从独立App升级为安卓底层的原生能力。

    智能眼镜产品线重启

    智能眼镜是本届大会最受瞩目的硬件产品。距离谷歌首次推出Google Glass已过去十余年,现在谷歌正与三星、Gentle Monster和Warby Parker合作开发两款AI眼镜。

    一款是类似Meta Ray-Ban的无屏AI眼镜,主打轻量化与日常佩戴,支持免提唤醒Gemini助手。另一款则更为前沿,配备镜片内显示技术,可将导航、实时翻译等信息直接投射在用户视野中。两款眼镜均基于Android XR操作系统。


    生态整合比产品更新更关键

    除了具体的产品和模型,本次大会还将展示谷歌在AI生态领域的战略布局。Android 17系统有望迎来变革,Beta版或将公布,开放Gemini Nano端侧AI能力,支持第三方开发离线AI应用。

    传闻中的”Gemini Spark”Agent平台可能会在大会上亮相。这个系统旨在主动运行、处理跨应用和服务的任务,而不是等待用户指令。它能够访问跨应用、浏览会话和用户活动的数据,这将是AI从工具升级为系统层的关键一步。

    谷歌母公司Alphabet此前预计2026财年资本支出将达到1750亿至1850亿美元,这些资金将重点投向大规模数据中心扩建与专用AI算力部署。重金押注AI,谷歌亟需证明其庞大的AI投入能够通过搜索广告、云服务和订阅带来回报。

  • 斯坦福2026 AI指数报告:AI在狂奔,我们还在找鞋

    斯坦福2026 AI指数报告:AI在狂奔,我们还在找鞋

    如果你在关注AI新闻,你可能会觉得头晕。AI是淘金热。AI是泡沫。AI要抢你工作。AI连时钟都不会读。斯坦福大学以人为本AI研究所发布的2026年AI指数报告,就是为了切断一些噪音而出的年度成绩单。

    报告说,尽管有预测认为AI发展可能会碰壁,但顶级模型一直在变得更好。人们采用AI的速度比采用个人电脑或互联网还快。AI公司生成收入的速度比之前任何技术繁荣时期的公司都快,但它们也在数据中心和芯片上花费了数千亿美元。用来衡量AI的基准测试、用来监管它的政策、就业市场都在努力跟上。AI在狂奔,而我们其他人还在找鞋。

    Stanford 2026 AI Index Report
    斯坦福2026年AI指数报告封面

    美中AI竞赛:差距薄如刀片

    在一场具有巨大地缘政治风险的漫长激烈竞赛中,根据Arena(一个允许用户比较大型语言模型在相同提示下输出的社区驱动排名平台)的数据,美国在AI模型性能上与中国几乎并驾齐驱。

    2023年初,OpenAI凭借ChatGPT领先,但这个差距在2024年随着Google和Anthropic发布自己的模型而缩小。2025年2月,由中国实验室DeepSeek构建的AI模型R1短暂匹配了顶级美国模型ChatGPT。截至2026年3月,Anthropic领先,紧随其后的是xAI、Google和OpenAI。中国模型如DeepSeek和阿里巴巴落后并不多。

    随着最佳AI模型在排名中的差距只有薄如刀片的优势,它们现在在成本、可靠性和现实世界实用性上竞争。

    指数指出,美国和中国有不同的AI优势。虽然美国有更强大的AI模型、更多资本和估计5,427个数据中心(比任何其他国家的10倍还多),但中国在AI研究出版物、专利和机器人技术方面领先。


    AI模型进步速度快得吓人

    尽管有预测认为发展将进入平台期,AI模型仍在变得越来越好。从某些指标来看,它们现在在旨在衡量博士级科学、数学和语言理解的测试上达到或超过了人类专家的表现。

    AI模型的软件工程基准测试SWE-bench Verified,顶级分数从2024年的约60%跃升至2025年的近100%。2025年,一个AI系统独立生成了天气预报。

    “我对这项技术继续改进感到震惊,它根本没有以任何方式进入平台期,”报告的合著者、南加州大学计算机科学家Yolanda Gil说。

    AI模型性能基准测试图表
    AI模型在各种基准测试中的表现趋势

    测试AI的方式坏了

    这些进步报告应该持保留态度。斯坦福报告说,随着模型迅速突破天花板,旨在跟踪AI进步的基准测试也在努力跟上。有些构建得很差——一个测试模型数学能力的流行基准测试有42%的错误率。其他的可以被操纵:例如,当模型在基准测试数据上训练时,它们可以学会得分高而没有变得更聪明。

    因为AI很少以被测试的方式使用,强大的基准测试性能并不总是转化为现实世界的性能。对于复杂、互动的技术如AI代理和机器人,基准测试几乎还不存在。


    AI开始影响就业,年轻人首当其冲

    在成为主流的三年内,AI现在被全球超过一半的人使用,采用速度比个人电脑或互联网都快。估计88%的组织现在使用AI,五分之四的大学生使用它。

    部署还处于早期阶段,AI对就业的影响很难衡量。尽管如此,一些研究表明,AI开始影响某些职业的年轻工作者。根据斯坦福经济学家2025年的一项研究,自2022年以来,22至25岁软件开发人员的就业下降了近20%。

    下降可能不能单独归咎于AI,因为更广泛的宏观经济条件可能是罪魁祸首,但AI似乎正在发挥作用。

    雇主表示招聘可能会继续收紧。根据麦肯锡公司2025年的一项调查,三分之一的组织预计AI将在未来一年缩小他们的劳动力,特别是在服务和供应链运营和软件工程领域。


    所有这些都付出了代价

    所有这些速度都是有代价的。全球AI数据中心现在可以抽取29.6吉瓦的电力,足以在峰值需求时运行整个纽约州。仅运行OpenAI的GPT-4o的年用水量可能超过120万人的饮用水需求。

    同时,芯片的供应链令人担忧地脆弱。美国托管了世界上大多数AI数据中心,而台湾的一家公司台积电制造了几乎所有领先的AI芯片。

  • MIT选出2026年AI最重要的10件事,每一件都在发生

    MIT选出2026年AI最重要的10件事,每一件都在发生

    每次打开AI新闻,都有一股”不知道该看哪里”的焦虑感。模型一个接一个发布、功能三天一小改、公司每周都有大新闻——但哪些真的重要、哪些只是杂音?

    MIT Technology Review在2026年4月首次推出年度清单”10 Things That Matter in AI Right Now”,由AI记者与编辑集体选出今年最值得持续关注的10个AI议题。这份清单不是看谁的模型最强,而是从更大的视角回答:AI正在改变什么,而你应该知道哪些?

    MIT Technology Review 2026年AI最重要的10件事
    MIT Technology Review首次发布AI年度趋势清单

    人形机器人训练资料正在悄悄收集

    人形机器人要学会”动作”,需要的不是更多文字资料,而是人类行为的影片。已有公司设立专门的”训练中心”,雇用工人重复执行特定动作让机器人录影学习。更奇特的是另一种做法:远端遥控人形机器人,由海外某个人”钻进机器人”操纵它的动作。

    人形机器人训练资料这个问题指向一个即将到来的现实:人类的身体动作,正在成为下一波AI训练的核心原料。

    AI加速诈骗,现在就影响你

    AI最直接且现实的黑暗面,不是机器人统治世界,而是诈骗变得更快、更便宜、更难识破。AI降低了诈骗的门槛:你不再需要懂技术才能制作逼真的钓鱼信件、伪造语音通话、或是批量生成假帐号。

    语音诈骗、Deepfake影片诈骗、自动化社交工程攻击,已在全球造成实质财务损失。理解这件事的意义不是叫你不要用AI,而是提醒你:当有人用影片、语音、文字”证明自己是某人”,你需要比以前更谨慎地验证。

    多Agent协作:AI从”一个助手”变成”一支团队”

    第一代AI Agent能帮你浏览网页、写一段程式码,但它们各自为政。下一步是让多个Agent分工合作:一个Agent负责搜集资料、另一个负责分析、第三个负责起草报告、第四个负责执行发布——整套流程自动完成,人只需要在关键节点确认。

    这项趋势在Google、Anthropic、Microsoft等平台的agentic平台陆续推出后,已从概念阶段进入企业落地阶段。对未来几年的影响会是:你交给AI的任务,会开始被一组AI一起完成,而不是靠你自己拼凑不同工具。

    中国的开源押注:免费模型背后的地缘政治

    中国AI实验室正在把顶尖模型免费开放给全球开发者,这个策略让世界各地的应用正在建立在中国AI的基础上。DeepSeek、Qwen(阿里巴巴)、GLM(智谱AI)——这些中国开源模型在关键基准测试上已接近主流商用LLM,加上可免费部署、推论成本较低,让全球开发者纷纷在上面建构应用。

    越来越多美国与全球的应用,正在”默默”跑在中国开源模型上——这个现象已悄悄发生,而且难以逆转。

    反扑浪潮:AI发展速度超过社会准备

    对AI的强力反扑正在全球范围内成形,而且已开始取得具体的小胜利。这波反扑的来源异常多元:保守派和自由派都有、艺术家和工会都有、欧洲监管机构和美国地方政府都有。他们的诉求各异,但共同点是:AI的发展速度已超過社会准备好接受它的速度。

    具体的胜利案例包括多国对AI生成艺术的版权保护立法推进,以及影视、音乐、艺术等产业在合约中加入AI使用授权条款。这件事的长期影响,可能决定未来AI工具的使用规则与创作者的收益分配方式。


    其他值得关注的趋势

    • LLMs Plus:大型语言模型不会消失,但正在被要求做更多、更难、更少出错的事
    • 世界模型:让AI能理解并模拟真实物理世界的系统,对机器人、自动驾驶意义重大
    • AI进军作战室:生成式AI已进入军事决策流程,指挥官真的在采纳它的建议
    • 武器化深伪:Deepfake从”技术上可能”变成了”已成事实”,所有影片都需要怀疑其真实性
    • AI科学家:能自主设计实验、分析数据、提出假设的AI研究代理系统