博客

  • OpenAI上线图片溯源功能,AI生成图终于有身份证了

    前几天刷到一张真假难辨的图,第一反应是去翻评论区看有没有人说是AI做的。这种事现在越来越常见,AI生成的图像质量越来越高,肉眼基本看不出破绽,结果就是谣言、诈骗、假新闻配图越来越难甄别。

    5月19日,OpenAI终于动了,宣布了两件事:一是接入C2PA开放标准,在图片元数据包里写清楚”这张图是AI生成的”;二是和谷歌合作,给图片嵌入SynthID不可见水印,截图、裁剪、加滤镜都抹不掉。

    Google SynthID开发者大会展示图
    谷歌SynthID水印演示现场(图片来源:TechCrunch)

    两套系统,互补短板

    C2PA的好处是信息量大,谁生成的、用什么模型生成的,都能写进去。问题是元数据太容易被篡改,有人故意删掉就白搭。SynthID正好反过来,水印嵌在像素层,抗干扰能力强,但能携带的信息有限。

    OpenAI的说法是:水印在截图之类的转置操作里更耐用,元数据能比单独的水印提供更多信息,两个一起上,可靠性比单用任何一层都高得多。

    一个公开验证工具正在预览

    光有水印不够,得让用户能用才行。OpenAI在做的验证工具,上传一张图就能检测有没有C2PA标识或SynthID水印,初期只支持自家的DALL·E等模型生成的图像,但OpenAI说希望未来能扩展到其他公司的AI工具。

    这件事的意义不只是”OpenAI给自己打标记”。作为头部玩家,OpenAI同时支持C2PA和SynthID,等于在推整个行业往统一溯源标准上走。不然每家各自为战,用户要装一堆检测工具,最后还是一地鸡毛。


    目前只管自家图片

    有个现实的限制:这两套保护措施只覆盖OpenAI自己生成的图片。网上那些用Stable Diffusion、Midjourney或者其他野路子公司工具生成的图,暂时还不归它管。所以这套方案目前最大的作用是确保OpenAI”不当帮凶”,而不是一口气解决整个AI假图问题。

    不过方向是对的。溯源这件事,不做就永远没有,做了至少有个起点。等覆盖的模型多了、用户习惯用验证工具了,AI生成内容的透明度才能真正提上来。

  • Google把20年街景数据喂给了Genie,AI现在能模拟你家门口的街道了

    你有没有在Google Maps的街景里「逛」过别人的 neighborhood?把那个小黄人往巴黎某条街上一扔,看看酒店是不是在安全的地段。Google现在想把这件事变得不止是「看看」,而是让你真正走进去、改天气、看暴风雪里的同一条街是什么样子。

    5月19日的Google I/O大会上,DeepMind宣布把Street View的数据接入Project Genie——Google的通用世界模型。简单来说,Genie可以根据文字或图片提示,生成可交互的游戏式三维环境。现在加上街景,它生成的就是真实世界的地方。

    Google Genie Street View 模拟展示
    Genie接入街景数据后,可生成纽约街景的交互式模拟(图源:TechCrunch)

    为什么这件事有意思

    DeepMind研究员Jack Parker-Holder举了一个很具体的例子:一个即将部署到伦敦的机器人,那边常年见不到什么太阳。用Genie,他们可以模拟阳光从维多利亚式房屋上反射下来的罕见场景,这样机器人真的遇到时就不会「懵掉」。

    「你可以说,我要去纽约,但不是这个季节,是下雪的时候。我想看看那条街在下雪时是什么样子。」

    街景数据积累,Google干了20年。背着摄像头的小车和塞了相机的背包,在全球110个国家和七大洲拍了超过2800亿张图片。这些数据的价值,过去主要体现在地图产品和广告上,现在DeepMind找到了新用法。


    不只是玩游戏

    Genie 3去年8月开放了研究预览,今年1月向美国的Google AI Ultra订阅用户开放。它的目标应用场景有三个:教育、游戏、机器人训练。接上街景之后,机器人训练这个场景立刻变得很实。

    Waymo已经在用Genie的模拟器来训练无人驾驶汽车应对「极罕见事件」——比如龙卷风,或者一头大象突然出现在路上。以前这种场景只能靠人工合成,现在有了街景作为基底,模拟出来的环境至少地理位置是真实的。

    和Waymo自己的模拟器相比,Genie的优势在于视角。Waymo的模拟都是从车载摄像头角度看的,而街景数据可以切换到任意视角——机器人视角、行人视角、甚至无人机视角。

    • 2800亿张街景图片覆盖全球110个国家
    • Waymo已用Genie模拟龙卷风、大象等极端场景
    • 支持任意视角切换(车载/行人/机器人/无人机)
    • 教育、游戏、机器人训练三大目标场景

    还差在哪里

    坦率说,现在的效果还没到「以假乱真」的程度。Google团队给我看的样片,包括我以前住过的一个街区的海底版本,识别度很高,但画质还是电子游戏水准,不是照片级真实。

    更大的问题是物理规律。现在的Genie模型还没有真正理解因果关系——比如在一个约书亚树国家公园的雪地场景模拟里,跑过去的人直接穿过了仙人掌和灌木丛。物理规则不是硬编码进去的,模型是通过被动观察自己「悟」出来的,这个过程还需要时间。

    「这类模型在准确度和质量上,可能比视频生成落后6到12个月。但我认为这是可以解决的。」——Jack Parker-Holder

    对比一下,Google自己的图像生成器Nano Banana已经能在信息图里生成完美的文字,视频生成器Veo也理解了纸船会跟着水流漂、烟会在空气中散开这些物理常识。Genie要追上这个水平,还得再跑一阵。

    目前,Street View in Genie已经向部分美国Ultra用户开放,接下来几周会逐步扩展到全球Ultra用户。DeepMind的产品经理Diego Rivas提醒说,这还是一个实验性的东西,准确度方面还有很多要改进的地方。

    但方向是清晰的。Google Maps的前总监Jonathan Herbert说,他们很早就在想怎么把地图数据用在新形式的AI研究上。Genie接入街景,是这个世界模型第一次真正摸到「真实世界的地基」。接下来会发生什么,值得盯着看。

  • Andrej Karpathy官宣加入Anthropic,OpenAI联合创始人为何选择竞对

    5月19日,AI圈被一条推文炸开了锅——Andrej Karpathy在X上官宣了自己加入Anthropic的消息。这位OpenAI的联合创始人、特斯拉前AI负责人,选择在这时候加入Claude的缔造者,让不少人感到意外。

    「我认为LLM前沿领域接下来的几年会特别关键。我很兴奋能加入这里的团队,重新回到研发一线。」——Andrej Karpathy

    他到底是谁

    karpathy在AI圈子里的分量,不需要太多介绍。他是OpenAI的创始成员之一,早年深耕深度学习和计算机视觉,2017年被马斯克挖去特斯拉,一手搭建了FSD(全自动驾驶)和Autopilot的核心团队。2022年离开特斯拉后,他短暂回归OpenAI一年,2024年又出来创立了Eureka Labs,想用AI助手做教育。

    他还有一门非常出名的在线课程《Neural Networks: Zero to Hero》,教学生从零开始用代码实现神经网络,在YouTube上有一大批忠实观众。可以说,他是少数几个既能搞懂大模型理论、又能真正把大规模训练跑起来的人。

    Andrej Karpathy
    Andrej Karpathy(图源:San Francisco Chronicle / Getty Images)

    在Anthropic做什么

    Karpathy本周正式入职Anthropic,在Nick Joseph的带领下专注于预训练(pre-training)方向。预训练是构建前沿模型最烧钱、最吃算力的阶段,直接决定了Claude的核心知识和能力上限。

    Anthropic方面还透露,Karpathy会着手组建一个专门的团队,研究方向是用Claude来加速预训练研究本身。这个思路很清晰——用AI来研究AI,用更强的模型来帮自己训练下一代模型,形成研发飞轮。


    为什么是现在

    Anthropic在这个时间点挖来Karpathy,信号很明确:他们相信AI辅助的研发,而不仅仅是堆算力,才是接下来和OpenAI、Google竞争的关键。能同时懂LLM理论和大尺度训练实践的研究者,圈子里掰着手指头数得过来,Karpathy是一个。

    至于他创立的Eureka Labs,目前还没有进一步的消息。Karpathy在自己的帖子里也提到,他对教育的热情不会消失,未来会找时间继续这件事。

    • OpenAI联合创始人身份,深度参与GPT早期研发
    • 特斯拉FSD团队缔造者,大规模AI落地经验
    • 顶级AI教育者,Zero to Hero课程影响数十万开发者
    • 唯一同时深度参与过OpenAI和特斯拉AI全栈的领军人物

    同一天,Anthropic还宣布了另一位重磅人才的加入:网络安全老将Chris Rohlf加入了前沿红队(frontier red team)。Rohlf在Yahoo的”The Paranoids”安全团队成名,后来在Meta待了六年,职业生涯跨度超过20年。他在X上写道:「我们有一个真正的机会,用AI大幅改善网络安全」,并认为此刻加入Anthropic是正确的选择。

    两则人事消息同一天公布,怎么看都像是Anthropic在Google I/O期间的一次精准人才公关。不管是巧合还是刻意为之,Anthropic正在用行动告诉外界:他们不仅在模型能力上追,在人才吸引上也一点不虚。

  • AnythingLLM:60.3k Stars!全功能AI生产力加速器,隐私优先的本地知识库方案

    AnythingLLM:60.3k Stars!全功能AI生产力加速器,隐私优先的本地知识库方案

    AnythingLLM

    📦 项目简介

    AnythingLLM 是一款全功能一体化AI生产力加速器,默认本地运行、隐私优先。它将LLM聊天、RAG文档检索、AI代理、多模态支持完美集成在一个应用中,让你无需复杂配置即可拥有属于自己的私有AI助手


    ⚙️ 安装要求和过程

    环境要求

    • 桌面版:Windows/macOS/Linux,直接下载安装包
    • Docker版:Docker 20.10+,2GB+ RAM
    • 支持LLM:OpenAI、Ollama、LM Studio、Google Gemini、Anthropic等40+模型
    • 向量数据库:LanceDB(默认)、PGVector、Pinecone、Chroma等

    # 快速安装 – Docker方式

    docker pull mintplexlabs/anythingllm:latest

    docker run -d -p 3001:3001 –name anythingllm mintplexlabs/anythingllm:latest

    # 桌面版直接下载

    访问 https://anythingllm.com/download 下载对应系统安装包


    核心功能

    📚 RAG文档对话

    支持PDF、TXT、DOCX等多种文档格式,内置RAG(检索增强生成)能力,让AI精准理解你的文档内容。

    🤖 内置AI代理

    自动执行网页浏览、工作流自动化等复杂任务,支持无代码代理构建器,最多可降低80%的token消耗

    🔌 全面MCP兼容

    完全兼容MCP(模型上下文协议),可对接外部工具,扩展AI能力边界。

    👥 多用户权限管理

    Docker版本支持多用户权限管理,适合团队共享知识库,保护企业知识产权。

    🎨 多模态支持

    支持多模态LLM(闭源/开源模型均兼容),支持语音转文本、文本转语音、音视频转录。


    💡 典型使用场景

    🏠

    个人知识管理

    本地搭建私有知识库,对话查询个人文档、笔记,隐私数据完全本地存储,无需担心数据外泄。

    🏢

    企业团队使用

    多用户权限管理,团队共享知识库,控制不同用户的访问权限,保护企业核心知识资产

    🔧

    AI应用开发

    基于完整开发者API、MCP兼容性,快速构建自定义AI应用,对接现有业务系统

    🌐

    网站智能客服

    通过嵌入聊天组件,在网站部署AI客服,基于企业私有文档回答问题,提升用户满意度。


    💝 推荐理由

    说实话,我用过很多AI工具和知识库方案,但AnythingLLM是唯一让我觉得”这就是我想要的”的产品。它的设计理念非常清晰:隐私优先、本地运行、开箱即用

    我最喜欢它的RAG文档对话功能。你可以把PDF、Word、TXT文档直接拖进去,它就能基于这些文档回答问题。比起那些需要把数据上传到云端的方案,AnythingLLM让我感觉数据完全在自己掌控之中

    另外,它的MCP兼容性也非常棒,可以对接各种外部工具,让AI的能力不断扩展。如果你正在寻找一个隐私安全、功能全面、易于部署的AI生产力工具,AnythingLLM绝对值得一试!


    📥 下载地址

    🔗 官方网站:https://anythingllm.com

    📚 官方文档:https://docs.anythingllm.com

    💻 GitHub仓库:https://github.com/Mintplex-Labs/anything-llm

    📥 桌面版下载:https://anythingllm.com/download


    🔥 项目亮点总结
    60.3k+ Stars |
    隐私优先 |
    本地运行 |
    MCP兼容

  • MIT发布2026年十大AI趋势:人形数据、智能体协作、中国开源押注

    MIT发布2026年十大AI趋势:人形数据、智能体协作、中国开源押注

    MIT Technology Review 2026年十大AI趋势
    MIT Technology Review首次发布年度AI趋势清单

    MIT Technology Review在2026年4月发布了首次年度AI趋势清单,从人形机器人训练数据、AI加速诈骗、武器化深伪,到多Agent协作与中国开源押注,10个正在发生的AI趋势逐一解析。这份报告旨在剔除行业泡沫,精准识别那些具有实质影响力的技术、新兴趋势与强大运动。

    人形机器人训练数据成新石油

    就像人类文本成为大语言模型的训练数据一样,人类运动视频正被大规模收集用于训练人形机器人。从工人重复完成任务的”训练中心”,到被海外陌生人远程操控的机器人,这是一项没有成功保障的奇特尝试。这个方法是否有效,业界还在观望。

    大语言模型仍有巨大挖掘空间

    大语言模型曾风靡全球,现在所有AI从业者都在追逐下一个突破性技术。虽然容易实现的应用场景已经基本被开发,但大语言模型不会退出舞台。这项技术仍有巨大的挖掘空间,LLMs+的时代才刚刚开始。

    AI正在降低诈骗分子和黑客的准入门槛,让他们攻击目标的速度更快、成本更低、操作更容易。与此同时,武器化深度伪造的威胁已经成为现实。

    世界模型让AI理解物理世界

    AI公司希望构建能够理解外部世界的系统。如果这一目标实现,将克服大语言模型的局限性,帮助AI进入物理环境。这个世界模型(World models)被认为是下一代AI系统的关键方向。

    智能体协作取代单打独斗

    第一代AI智能体只能运行浏览器或编写代码片段,且只能单独行动。接下来将出现能够协作完成更复杂目标的智能体团队。多Agent协作(Agent orchestration)将是2026年AI应用落地的重要方向。


    中国开源模型赢得全球开发者好感

    免费开放前沿模型让中国实验室获得了全球信誉和开发者的广泛好感。这种方式是否具备财务可持续性尚不可知,但全球开发者已经在基于中国的基础模型进行开发。中国在开源AI领域的布局正在产生实质影响力。

    AI科学家的想象与现实

    学术界和企业都在开发能够自主完成研究任务、与科学家作为真正协作伙伴共事的智能体。有人认为这些AI合作科学家未来能够达到诺贝尔奖级别的研究高度。人工智能科学家(Artificial scientists)如能实现,将彻底改变科研范式。

    与此同时,全球范围内正在形成一股强大的AI反对浪潮。从保守派到自由派,从艺术家到工会,活动人士的势头正在上升,并且已经开始取得小的胜利。AI的快速发展正在遭遇越来越强的阻力。

  • 谷歌I/O 2026倒计时:Gemini轻量升级,AI眼镜重启硬件线

    谷歌I/O 2026倒计时:Gemini轻量升级,AI眼镜重启硬件线

    谷歌I/O 2026开发者大会
    2026年谷歌I/O开发者大会将于5月19-20日举行

    2026年谷歌I/O开发者大会今天(5月20日)正在加州山景城举行。这次大会的核心看点很明确:新一代Gemini模型和Android XR智能眼镜。距离上次谷歌发布Gemini 3.1 Pro已经过去三个月,业界对新版本的期待值拉满。

    Gemini模型不会跨越式迭代

    综合多方消息,谷歌这次大概率不会发布Gemini 4.0。按照约3-4个月的迭代节奏,上一代Gemini 3是2025年11月发布的,到现在才半年。更可能的情况是推出Gemini 3.2或3.5,性能大致与OpenAI近期发布的GPT-5.5相当。

    新一代模型的技术突破方向值得关注——它侧重Agent任务能力提升,而不是推理能力。具体来说,新模型预计将大幅提升上下文处理能力,并着重优化端侧轻量化表现。这意味着AI功能能够适配更多中低端安卓机型,真正服务于谷歌庞大的移动生态。

    谷歌一直想把Gemini更深入地融入其生态系统。这次大会上,我们可能会看到Gemini从独立App升级为安卓底层的原生能力。

    智能眼镜产品线重启

    智能眼镜是本届大会最受瞩目的硬件产品。距离谷歌首次推出Google Glass已过去十余年,现在谷歌正与三星、Gentle Monster和Warby Parker合作开发两款AI眼镜。

    一款是类似Meta Ray-Ban的无屏AI眼镜,主打轻量化与日常佩戴,支持免提唤醒Gemini助手。另一款则更为前沿,配备镜片内显示技术,可将导航、实时翻译等信息直接投射在用户视野中。两款眼镜均基于Android XR操作系统。


    生态整合比产品更新更关键

    除了具体的产品和模型,本次大会还将展示谷歌在AI生态领域的战略布局。Android 17系统有望迎来变革,Beta版或将公布,开放Gemini Nano端侧AI能力,支持第三方开发离线AI应用。

    传闻中的”Gemini Spark”Agent平台可能会在大会上亮相。这个系统旨在主动运行、处理跨应用和服务的任务,而不是等待用户指令。它能够访问跨应用、浏览会话和用户活动的数据,这将是AI从工具升级为系统层的关键一步。

    谷歌母公司Alphabet此前预计2026财年资本支出将达到1750亿至1850亿美元,这些资金将重点投向大规模数据中心扩建与专用AI算力部署。重金押注AI,谷歌亟需证明其庞大的AI投入能够通过搜索广告、云服务和订阅带来回报。

  • 斯坦福2026 AI指数报告:AI在狂奔,我们还在找鞋

    斯坦福2026 AI指数报告:AI在狂奔,我们还在找鞋

    如果你在关注AI新闻,你可能会觉得头晕。AI是淘金热。AI是泡沫。AI要抢你工作。AI连时钟都不会读。斯坦福大学以人为本AI研究所发布的2026年AI指数报告,就是为了切断一些噪音而出的年度成绩单。

    报告说,尽管有预测认为AI发展可能会碰壁,但顶级模型一直在变得更好。人们采用AI的速度比采用个人电脑或互联网还快。AI公司生成收入的速度比之前任何技术繁荣时期的公司都快,但它们也在数据中心和芯片上花费了数千亿美元。用来衡量AI的基准测试、用来监管它的政策、就业市场都在努力跟上。AI在狂奔,而我们其他人还在找鞋。

    Stanford 2026 AI Index Report
    斯坦福2026年AI指数报告封面

    美中AI竞赛:差距薄如刀片

    在一场具有巨大地缘政治风险的漫长激烈竞赛中,根据Arena(一个允许用户比较大型语言模型在相同提示下输出的社区驱动排名平台)的数据,美国在AI模型性能上与中国几乎并驾齐驱。

    2023年初,OpenAI凭借ChatGPT领先,但这个差距在2024年随着Google和Anthropic发布自己的模型而缩小。2025年2月,由中国实验室DeepSeek构建的AI模型R1短暂匹配了顶级美国模型ChatGPT。截至2026年3月,Anthropic领先,紧随其后的是xAI、Google和OpenAI。中国模型如DeepSeek和阿里巴巴落后并不多。

    随着最佳AI模型在排名中的差距只有薄如刀片的优势,它们现在在成本、可靠性和现实世界实用性上竞争。

    指数指出,美国和中国有不同的AI优势。虽然美国有更强大的AI模型、更多资本和估计5,427个数据中心(比任何其他国家的10倍还多),但中国在AI研究出版物、专利和机器人技术方面领先。


    AI模型进步速度快得吓人

    尽管有预测认为发展将进入平台期,AI模型仍在变得越来越好。从某些指标来看,它们现在在旨在衡量博士级科学、数学和语言理解的测试上达到或超过了人类专家的表现。

    AI模型的软件工程基准测试SWE-bench Verified,顶级分数从2024年的约60%跃升至2025年的近100%。2025年,一个AI系统独立生成了天气预报。

    “我对这项技术继续改进感到震惊,它根本没有以任何方式进入平台期,”报告的合著者、南加州大学计算机科学家Yolanda Gil说。

    AI模型性能基准测试图表
    AI模型在各种基准测试中的表现趋势

    测试AI的方式坏了

    这些进步报告应该持保留态度。斯坦福报告说,随着模型迅速突破天花板,旨在跟踪AI进步的基准测试也在努力跟上。有些构建得很差——一个测试模型数学能力的流行基准测试有42%的错误率。其他的可以被操纵:例如,当模型在基准测试数据上训练时,它们可以学会得分高而没有变得更聪明。

    因为AI很少以被测试的方式使用,强大的基准测试性能并不总是转化为现实世界的性能。对于复杂、互动的技术如AI代理和机器人,基准测试几乎还不存在。


    AI开始影响就业,年轻人首当其冲

    在成为主流的三年内,AI现在被全球超过一半的人使用,采用速度比个人电脑或互联网都快。估计88%的组织现在使用AI,五分之四的大学生使用它。

    部署还处于早期阶段,AI对就业的影响很难衡量。尽管如此,一些研究表明,AI开始影响某些职业的年轻工作者。根据斯坦福经济学家2025年的一项研究,自2022年以来,22至25岁软件开发人员的就业下降了近20%。

    下降可能不能单独归咎于AI,因为更广泛的宏观经济条件可能是罪魁祸首,但AI似乎正在发挥作用。

    雇主表示招聘可能会继续收紧。根据麦肯锡公司2025年的一项调查,三分之一的组织预计AI将在未来一年缩小他们的劳动力,特别是在服务和供应链运营和软件工程领域。


    所有这些都付出了代价

    所有这些速度都是有代价的。全球AI数据中心现在可以抽取29.6吉瓦的电力,足以在峰值需求时运行整个纽约州。仅运行OpenAI的GPT-4o的年用水量可能超过120万人的饮用水需求。

    同时,芯片的供应链令人担忧地脆弱。美国托管了世界上大多数AI数据中心,而台湾的一家公司台积电制造了几乎所有领先的AI芯片。

  • MIT选出2026年AI最重要的10件事,每一件都在发生

    MIT选出2026年AI最重要的10件事,每一件都在发生

    每次打开AI新闻,都有一股”不知道该看哪里”的焦虑感。模型一个接一个发布、功能三天一小改、公司每周都有大新闻——但哪些真的重要、哪些只是杂音?

    MIT Technology Review在2026年4月首次推出年度清单”10 Things That Matter in AI Right Now”,由AI记者与编辑集体选出今年最值得持续关注的10个AI议题。这份清单不是看谁的模型最强,而是从更大的视角回答:AI正在改变什么,而你应该知道哪些?

    MIT Technology Review 2026年AI最重要的10件事
    MIT Technology Review首次发布AI年度趋势清单

    人形机器人训练资料正在悄悄收集

    人形机器人要学会”动作”,需要的不是更多文字资料,而是人类行为的影片。已有公司设立专门的”训练中心”,雇用工人重复执行特定动作让机器人录影学习。更奇特的是另一种做法:远端遥控人形机器人,由海外某个人”钻进机器人”操纵它的动作。

    人形机器人训练资料这个问题指向一个即将到来的现实:人类的身体动作,正在成为下一波AI训练的核心原料。

    AI加速诈骗,现在就影响你

    AI最直接且现实的黑暗面,不是机器人统治世界,而是诈骗变得更快、更便宜、更难识破。AI降低了诈骗的门槛:你不再需要懂技术才能制作逼真的钓鱼信件、伪造语音通话、或是批量生成假帐号。

    语音诈骗、Deepfake影片诈骗、自动化社交工程攻击,已在全球造成实质财务损失。理解这件事的意义不是叫你不要用AI,而是提醒你:当有人用影片、语音、文字”证明自己是某人”,你需要比以前更谨慎地验证。

    多Agent协作:AI从”一个助手”变成”一支团队”

    第一代AI Agent能帮你浏览网页、写一段程式码,但它们各自为政。下一步是让多个Agent分工合作:一个Agent负责搜集资料、另一个负责分析、第三个负责起草报告、第四个负责执行发布——整套流程自动完成,人只需要在关键节点确认。

    这项趋势在Google、Anthropic、Microsoft等平台的agentic平台陆续推出后,已从概念阶段进入企业落地阶段。对未来几年的影响会是:你交给AI的任务,会开始被一组AI一起完成,而不是靠你自己拼凑不同工具。

    中国的开源押注:免费模型背后的地缘政治

    中国AI实验室正在把顶尖模型免费开放给全球开发者,这个策略让世界各地的应用正在建立在中国AI的基础上。DeepSeek、Qwen(阿里巴巴)、GLM(智谱AI)——这些中国开源模型在关键基准测试上已接近主流商用LLM,加上可免费部署、推论成本较低,让全球开发者纷纷在上面建构应用。

    越来越多美国与全球的应用,正在”默默”跑在中国开源模型上——这个现象已悄悄发生,而且难以逆转。

    反扑浪潮:AI发展速度超过社会准备

    对AI的强力反扑正在全球范围内成形,而且已开始取得具体的小胜利。这波反扑的来源异常多元:保守派和自由派都有、艺术家和工会都有、欧洲监管机构和美国地方政府都有。他们的诉求各异,但共同点是:AI的发展速度已超過社会准备好接受它的速度。

    具体的胜利案例包括多国对AI生成艺术的版权保护立法推进,以及影视、音乐、艺术等产业在合约中加入AI使用授权条款。这件事的长期影响,可能决定未来AI工具的使用规则与创作者的收益分配方式。


    其他值得关注的趋势

    • LLMs Plus:大型语言模型不会消失,但正在被要求做更多、更难、更少出错的事
    • 世界模型:让AI能理解并模拟真实物理世界的系统,对机器人、自动驾驶意义重大
    • AI进军作战室:生成式AI已进入军事决策流程,指挥官真的在采纳它的建议
    • 武器化深伪:Deepfake从”技术上可能”变成了”已成事实”,所有影片都需要怀疑其真实性
    • AI科学家:能自主设计实验、分析数据、提出假设的AI研究代理系统

  • 千问接入淘宝:阿里把AI购物这件事做透了

    对话就能买东西,阿里这次玩真的

    阿里巴巴最近把通义千问和淘宝打通了。不是那种噱头式的”AI购物助手”,而是真正能让用户通过对话完成浏览、比价、下单全流程的整合。你在千问App里说一句话,它就能帮你把商品找好、对比完毕、直接下单。

    这套系统接入了淘宝和天猫超过40亿件商品。40亿是什么概念?基本上你能想到的东西都在里面了。以前要用关键词搜索、翻页、对比详情页,现在直接跟AI说你想要什么,它帮你搞定。

    传统电商的逻辑是”人找货”——你得知道自己要什么、怎么描述、哪个关键词有效。AI购物的逻辑是”对话即交易”——你只需要表达需求,剩下的事AI帮你完成。

    淘宝里头也有AI助手了

    阿里这套打法挺聪明的,不是只做一个独立的AI购物App,而是双向打通。千问App能调用淘宝的商品库,淘宝站内也上线了千问赋能的AI购物助手。

    淘宝里头的AI助手还加了几个实用功能:虚拟试穿、30天价格走势追踪。这些功能单独看不算新鲜,但跟对话式购物结合起来,体验就完全不一样了。你可以直接问”这件衣服我穿好看吗”,AI帮你试穿;也可以说”这个价格划算吗”,AI给你看价格走势。


    依托专属”技能库”,千问还能帮你管理物流、处理售后。以前买完东西要查物流得去淘宝App,要退货得找客服,现在直接在对话里说一声就行。

    中外电商的AI路数不一样

    看看国外的玩法,就会发现阿里的打法挺特别的。亚马逊也在用AI优化购物体验,但它不敢让你直接通过AI完成交易,担心失控。加拿大电商平台Shopify倒是接了AI助手,但它用的是第三方的,自己不研发。

    阿里这种”我有大模型、我有电商平台、我把它们打通”的路数,中外都没几家能抄。Google有模型但没电商,亚马逊有电商但模型不够强,只有阿里两家都有。

    这种全链路打通,才是AI商业化真正有力的打法。不是做个聊天机器人让你玩,而是让AI真正进入交易环节、产生实际收入。


    AI购物到底是噱头还是趋势

    肯定有人会说,这不就是个升级版的”智能客服”吗?其实差别挺大的。智能客服是”你问它答”,而且通常只能处理固定流程里的问题。AI购物助手是”你说需求,它帮你完成交易”,主动权在用户手里,但执行权在AI手里。

    这种模式能不能成,关键看两件事:一是AI推荐的准确性,别你想要的跟它给的不是一回事;二是用户对AI做决策的信任度,敢不敢让它帮你下单、处理售后。

    阿里敢全线铺开,说明它在内部测试里对这两件事都有底气。接下来几个月,看用户买不买账就知道了。

  • 前OpenAI CTO放大招:Thinking Machines实时交互模型200ms响应

    前OpenAI CTO放了个大招

    Mira Murati离开OpenAI自己创业才一年多,前几天直接把第一个模型甩了出来。不是那种传统的”你问一句我答一句”的回合制AI,而是真正能实时互动的交互模型。200毫秒的响应延迟,你随时可以插话打断,AI也能同时听、说、看、调用工具。

    这套系统叫TML-Interaction-Small,采用的是2760亿参数的混合专家架构,每次推理只激活120亿参数。关键是它把前后台拆开了:前台专门维持对话流畅,200毫秒为一个时间片持续接收信息;后台负责复杂推理和工具调用,结果流式返回前台,不会打断你的说话节奏。

    200毫秒是什么概念?人说话时自然的停顿间隔大约是200-300毫秒。也就是说,这个模型的响应速度已经接近人类对话的节奏了。

    不只是速度快

    以前那些号称”实时”的语音AI,本质上都是把语音识别、语言模型、语音合成这几个模块拼在一起,中间靠外部工具协调。你说话的时候AI只能等着,说完一段它才开始处理,这就是典型的”回合制”。

    Thinking Machines这套系统是原生实时交互,从架构层面就设计成可以交错处理音频、视频、文本的流数据。它用的编码方案也挺聪明:音频用dMel轻量编码,图像用hMLL编码,所有组件跟Transformer主干网络一起训练,不用单独的编码器拖慢速度。


    在FD-Bench v1.5基准测试里,这个模型拿了77.8分。作为对比,OpenAI的GPT-Realtime-2和谷歌的Gemini 3.1 Flash Live都没超过它。响应延迟0.40秒,比GPT-Realtime-2快了大概4倍。

    钱和人都不缺

    Murati这个人挺厉害的,在OpenAI当CTO的时候就是技术核心人物之一。她出来单干,投资人直接给了20亿美元种子轮,估值砸到120亿美元。团队里还有FAIR实验室的前研究员Piotr Dollar这种级别的人物。

    算力方面也没拖后腿,跟英伟达、谷歌分别签了超过10亿美元的合作协议,拿到基于GB300芯片的超级计算资源。这种配置,基本上就是把”我要做顶级AI”写在脸上了。

    团队自己说几个月里迭代了12个版本,训练日志写了137页。这种折腾劲,倒是很像早期OpenAI的风格。


    真正的交互应该是什么样

    现在大家用ChatGPT语音模式或者Alexa那种智能助手,体验上总感觉差了点什么。你不能在它说话的时候插话,它也不能在你还在想怎么表达的时候就开始回应。这种”半双工”的交互方式,本质上还是把AI当成一个高级搜索引擎来用。

    Murati想做的,是让AI真正像一个人一样跟你对话。你可以随时打断,它可以同时处理多件事,后台在跑复杂推理的时候前台对话不受影响。这种体验,才是大家一直在说的”贾维斯”该有的样子。

    当然现在这个模型还只是研究预览版,正式开放还要等几个月。但方向已经很明确了:AI交互的下一个战场,不是谁的模型参数更多,而是谁能真正做到”自然对话”。