标签: 大模型

  • Anthropic接近$900B估值融资关闭:算力军备竞赛进入新量级

    Bloomberg的消息说,Anthropic这笔至少$300亿的新融资、投后估值$900亿以上的轮次,预计5月底就能关闭。截至5月16日,条款清单还没签,但各方已经在按这个时间表推进。

    如果最终落在$900B,Anthropic的估值将首次超过OpenAI——后者今年3月刚拿到$852B的投后估值。而更夸张的是,Anthropic自己今年2月的估值才$380B。三个月涨了2.37倍,这不是普通的增长型融资,这是算力军备竞赛的入场券。

    领投方阵容:硅谷最豪华的算力押注

    这一轮的联合领投方是Sequoia、Dragoneer、Greenoaks和Altimeter。这个组合本身就说明了很多问题——不是早期VC在赌概率,而是成长期的重量级基金在押注”算力即护城河”这个逻辑。

    Anthropic CEO Dario Amodei已经明确说了,这笔钱主要去向是两个:Amazon Web Services和Google Cloud的算力承诺,合同已经签到了2027年。翻译一下就是:我先把未来三年的算力锁死,你们其他家自己去排队吧。


    为什么是现在?Google I/O前的时间窗口

    把时间线摆在一起看就很有意思了。Google I/O是5月19日,Anthropic选在I/O之前把融资消息放出来,战略意图相当明显——在谷歌可能凭借Gemini 4.0夺回叙事主导权之前,先把自己的估值天花板顶上去。

    这也解释了为什么Anthropic愿意以$900B的估值融资。不是因为这个价格”合理”,而是因为他们在跟时间赛跑——在谷歌、Meta、xAI全部加码算力的窗口里,谁先锁定长期算力合同,谁就掌握了下一代模型的上限。


    算力即模型能力:一个被低估的逻辑

    外面很多人还在讨论”哪个模型更聪明”,但Anthropic、OpenAI和谷歌内部的人都知道,2026年的竞争核心不是算法,是算力。你能调度多少H100/B200,决定了你的模型能跑多大、跑多快、跑多稳。

    Anthropic同时还租了SpaceX的Colossus 1超算——22万块以上NVIDIA GPU,300兆瓦的算力规模。这不是临时补救,这是在AWS和Google Cloud的算力完全上线之前(2027年)的一座桥。Dario Amodei的计算是:等竞争对手反应过来,我已经跑了两年了。


    Q1营收80倍增长:融资背后的商业验证

    估值不是凭空来的。Anthropic在5月11日披露,2026年Q1营收同比增长80倍,当前ARR超过$440亿。年消费百万美元以上的客户,两个月内从500家翻倍到1000家以上。

    这些不是试点客户。PwC、Blackstone、Goldman Sachs、Hellman & Friedman、Gates基金会——这些都是生产级部署。Anthropic总裁Daniela Amodei的定位很清晰:Claude不是聊天机器人,是企业的操作系统。80倍的营收增长说明市场正在用真金白银为这个定位投票。


    月底见分晓

    如果这一轮真的在5月底关闭,AI产业格局会在48小时之内被重写。OpenAI盘了三年的”最值钱AI公司”头衔,将被一家成立才五年的公司夺走。

    对开发者来说,这意味着什么?更多的算力意味着Claude的能力上限会持续提升,API的可用性会更高,响应会更快。竞争的受益者永远是用户——这一轮融资的终极输家,可能是那些还在犹豫要不要全面切换到AI工作流的人。

  • Google I/O 2026明天开幕:Gemini 4.0、XR眼镜、Aluminium OS,谷歌全产品线押注AI

    明天(5月19日)上午10点PT,Google I/O 2026将在山景城Shoreline露天剧场拉开帷幕。这是48小时之内就要发生的、本月规模最大的AI盛会。谷歌已经确认主题演讲将涵盖”最新Gemini模型更新”和”智能体编程”——业界普遍解读为Gemini 4.0即将亮相。

    Gemini 4.0:直接对标Claude Mythos

    谷歌这次把赌注全压在了Gemini 4.0上。根据已泄露的路线图材料和官方暗示,这次升级将在多模态推理、Workspace集成和智能体可靠性三个维度全面进化。如果Gemini 4.0的基准测试成绩能接近甚至追平Claude Mythos Preview的94.6% GPQA得分,谷歌就能在这一周里重新掌握AI叙事的主导权。

    有意思的是,谷歌在5月12日的Android Show上已经把平台级更新提前发布了,I/O专门留给模型发布和硬件,这个节奏安排相当聪明——避免自家产品抢流量,把最炸的牌留到主会场。


    Android XR眼镜:跟Meta的又一次对决

    硬件方面最值得关注的是Android XR眼镜。谷歌已经确认了和三星、Warby Parker、Gentle Monster以及XREAL的硬件合作伙伴关系。一款无显示屏的型号——主打免手持Gemini交互——预计2026年内就能上市。

    这明显是冲着Meta的Ray-Ban智能眼镜去的。不同的是,谷歌的方案更彻底:不靠镜片显示,而是把Gemini变成你随时可以对话的”副驾驶”。这个方向到底能不能打,I/O上应该会有更详细的交互演示。


    Aluminium OS:ChromeOS的终点,Android桌面的起点

    一个相对低调但影响深远的发布是Aluminium OS——谷歌用来替代ChromeOS的Android底层系统。副总裁Sameer Samat已经确认2026年推出。最近泄露的一段16分钟上手视频显示,这个新系统长得像一个放大版Android:底部Dock、虚拟桌面、完整应用窗口,就是没有传统Linux底层的那种笨重感。

    如果Aluminium OS真的能在2026年完成ChromeOS的替换,谷歌就拥有了一条从手机(Android)到平板(Android XR)到笔记本(Aluminium)到云(Google Cloud Agentic Toolkit)的完整AI设备链路。苹果还没把这个拼图拼完整。


    Google Cloud Agentic Toolkit:企业智能体的定价终于要透明了

    对企业用户来说,这次I/O最实在的内容可能是Google Cloud Agentic Toolkit的扩展API和定价细节。之前谷歌在企业智能体这块的商业化一直比较模糊,这次应该会把Workspace集成和Agent部署的企业级收费模式说清楚。

    讲真,企业在选智能体平台的时候,定价透明度本身就是竞争力。Anthropic把Claude for Small Business的定价和集成直接做进产品里,谷歌如果还在绕圈子,企业客户会用脚投票的。


    战局研判:这一周的胜负手

    把时间线拉远一点看,这一周很可能是2026年AI竞争的转折点。Anthropic预计在5月底前关闭$900B估值的融资轮,谷歌在5月19日放大招,Meta的Avocado模型跳票到6月——三家的节奏完全错开了。

    如果Gemini 4.0的实测表现真的能打,谷歌就能在Anthropic融资关闭之前把叙事抢回来。如果表现平平,那$900B的估值就会让Anthropic在接下来几个月里持续占据头条。

    明天上午10点PT,答案揭晓。

  • MIT Technology Review 2026年十大AI趋势:从人形数据到反抗浪潮

    一份不按常理出牌的AI清单

    MIT Technology Review在2026年4月21日首次推出「10 Things That Matter in AI Right Now」年度清单,这跟他们做了二十多年的「10大突破技术」不是一个路数。往年那是预测未来三五年什么技术可能改变世界,今年这份清单直接盯住当下正在发生、而且已经跑起来停不下来的十个AI趋势。

    评审团队是MIT TR的AI记者和编辑集体投票选出来的,标准只有一个:这件事现在正在改变什么,而不是它听起来有多酷。结果出炉之后我仔细看了,十个里面有四个跟「可信度」和「物理世界」有关——这个信号值得琢磨。

    AI最现实的威胁不是机器人造反,而是你分不清眼前看到的是真的还是算出来的。

    人形数据和世界模型:机器人终于要「活」了

    榜单第一个趋势是「人形数据」(Humanoid Data)。简单说,就是让机器人学人的动作,需要海量的人类行为视频——怎么拿鸡蛋不捏破、怎么折衣服、怎么在厨房里转身不撞到东西。现在的做法是两路并进:一路是在专门的训练中心里让工作人员重复执行任务,另一路是用远程操控让海外的真人「钻进机器人身体」操纵动作,同时录下示范视频。

    第四个趋势「世界模型」(World Models)跟这个一脉相承。现在的LLM很会「说」,但不太能「理解空间」。你问它一个球从桌上滚下去会怎样,它能描述,但它没有真正建模重力和摩擦力在物理世界里的运作方式。世界模型想解决的,就是这个根本的能力缺口。

    MIT的报道特别点名了Niantic(《Pokemon GO》开发商)旗下的AI分拆公司,正在用玩家多年累积的30亿张城市街景照片训练下一代世界模型。玩家当初是为了抓宝可梦而拍照,无意间成了史上规模最大的现实世界AI训练数据来源之一。这个叙事,比任何技术白皮书都来得生动。

    诈骗升级和武器化深伪:信任正在被掏空

    第三个趋势「升级版诈骗」和第六个趋势「武器化深伪」,在榜单里占了两个席位,说明MIT TR对这个问题的严重程度评估相当高。AI降低了诈骗的门槛,你不再需要懂技术才能制作逼真的钓鱼邮件、伪造语音通话、或者批量生成假账号。

    更棘手的是第六个趋势点名的两件事:Grok(马斯克旗下xAI的AI)被用来大量生成非自愿性图像,以及美国政府用AI生成内容进行政治宣传。深伪的威胁不只是让假的东西看起来像真的,而是让真的东西也开始被怀疑——当任何视频都可能是假的,人们对所有视觉证据的信任就会崩塌。


    多Agent协作和中国开源押注

    第七个趋势「智能体编排」(Agent Orchestration)说的是多个AI Agent协作执行复杂任务。第一代AI Agent能帮你浏览网页、写一段代码,但它们各自为政。下一步是让多个Agent分工合作:一个负责搜集资料、另一个负责分析、第三个负责起草报告、第四个负责执行发布——整套流程自动完成,人只需要在关键节点确认。

    第八个趋势「中国的开源押注」也很有意思。DeepSeek、Qwen(阿里巴巴)、GLM(智谱AI)——这些中国开源模型在关键基准测试上已经接近主流商用LLM,加上可免费部署、推理成本较低,让全球开发者纷纷在上面建构应用。MIT的核心观察是:越来越多美国与全球的应用,正在「默默」跑在中国AI的基础设施上——这个现象已悄悄发生,而且难以逆转。

    反抗浪潮已经来了

    第十个趋势「抵抗运动」被放进这份清单,本身就是一个信号。对AI的强力反抗正在全球范围内成形,而且已经开始取得具体的小胜利。这波反抗的来源异常多元:保守派和自由派都有、艺术家和工会都有、欧洲监管机构和美国地方政府都有。他们的诉求各异,但共同点是:AI的发展速度已经超过了社会准备好接受它的速度。

    具体的胜利案例包括多国对AI生成艺术的版权保护立法推进,以及影视、音乐、艺术等产业在合约中加入AI使用授权条款。在音乐平台端,多个平台已经开始对AI生成内容增加标记与调控机制。

  • Google I/O 2026明天开幕:Gemini 4.0、XR眼镜和Aluminium OS一次看完

    明天(5月19日)凌晨1点,Google I/O 2026就要开幕了。这场在加州山景城Shoreline圆形剧场举办的大会,今年把全部火力集中到了AI上——官方直接放话,主题演讲就讲两件事:最新的Gemini模型更新,以及智能体编程(agentic coding)。

    有意思的是,Google在5月12日的Android Show上已经把平台类消息全放完了,所以这次I/O完全不给别的新闻留活路,就是要让你盯着模型和硬件看。

    Gemini 4.0,这次能打吗?

    行业里普遍预计Google会在本届I/O正式推出Gemini 4.0。这个数字命名很有意思——跳过了3.5、3.8这些中间版本,直接上4.0,摆明了是要跟Claude Opus 4.7和GPT-5.5正面刚。

    核心看点只有一个:Gemini 4.0在GPQA基准测试上能不能摸到Claude Mythos Preview的94.6%水平。如果能,Google这波就拿下了当周AI行业的叙事主导权。

    除了纯性能,这次Gemini的Workspace集成和智能体任务可靠性也是重点。企业用户不在乎你跑分多少,只在乎这东西能不能稳定帮我干活。

    Android XR眼镜终于要见了

    Google的XR眼镜这次真的要亮相了。已确认的硬件合作伙伴包括三星、Warby Parker、Gentle Monster和XREAL。产品规划里有一款无显示屏版本,靠语音调用Gemini交互,不用抬手不用看屏幕,问就行。

    这东西2026年就要上市,比Meta雷声大雨点小的Avocado模型靠谱多了——至少眼镜是实打实的硬件,你能摸到。

    Aluminium OS:ChromeOS的接班人

    这个比较意外。Google副总裁Sameer Samat已经公开确认2026年推出Aluminium OS,定位是ChromeOS的替代系统,面向消费级笔记本市场。

    泄露出来的16分钟上手演示显示,这系统长得像Android的桌面版——底部有Dock栏,支持虚拟桌面,还能通过「Link to iOS」应用跟iPhone互联。对,Google也在打跨设备协同的主意,跟苹果的生态封闭正好反着来。

    对企业用户意味着什么

    预期会同步发布Google Cloud Agentic Toolkit,包含扩展API、明确定价细则和Workspace深度集成。企业要是想用Google的智能体工具,这次应该能拿到一份完整的路线图和价目表。

    对国内做AI应用层的公司来说,Gemini 4.0如果真达到了Claude级别的性能,那模型层的竞争格局又要变。你现在押注的API供应商,半年后可能就不是最优解了。


    为什么这场发布会值得熬夜看

    2026年5月被认为是AI发展史上最繁忙的两周之一,而Google I/O是这波高潮的正式 opening。如果Gemini 4.0表现达到预期,Anthropic和OpenAI苦心经营大半年的叙事优势可能被直接动摇。

    甚至连Meta都推迟了下一代模型Avocado的发布,明说要避免被I/O的新闻热度淹没——你想想,能让竞争对手主动让路的大会,值不值得关注?

  • Meta的Avocado熟了吗?内测多个变体模型,发布却一拖再拖

    Meta的下一代大模型Avocado,这个名字听着就挺接地气,但它的开发进度可一点都不”熟”。本来计划今年3月发布,结果内部测试发现性能跟不上Google、OpenAI和Anthropic的顶尖模型,发布时间至少推迟到了今年5月——也就是眼下这个月。

    多个变体同时测,Meta自己也没拿定主意

    从Meta AI的界面里挖出来的内部信息显示,他们正在同时测试好几个不同版本的Avocado。有个9B参数的小型版本,叫Avocado 9B;还有一个带”agent”和”sub-agent”标签的变体,叫Avocado Mango,支持图像生成,算是个多模态版本。

    除此之外,还有Avocado TOMM(”Tool of many models”,基于Avocado的工具调用版本)、Avocado Thinking 5.6(最新版的思考模型),以及一个只做文本对话的版本叫Paricado。多个不同尺寸的候选版本同时测试,看起来Meta自己也还在纠结,到底哪个配置最终能端上台面。

    内部流出的系统指令显示,Avocado能调用各种内部工具,某些情况下能解出早先Llama模型搞不定的复杂数学题——只不过这些题,Gemini 3和GPT 5早在几个月前就已经能解了。

    性能不够,Gemini来凑

    这件事已经严重到了什么程度?Meta的AI领导层据传已经讨论过临时授权使用Google的Gemini技术。目前Meta AI内部已经在做A/B测试,把一部分请求路由到Gemini模型上跑。这种做法说明,Meta在Avocado成熟之前,打算用外部模型来填补能力缺口。

    对于一家砸了重金要做”世界顶级AI”的公司来说,要靠竞争对手的模型来撑场面,这多少有点尴尬。但换个角度看,这种务实的做法也能理解——总不能让用户一直用着落后于时代的Llama 3等模型吧。

    从开源到闭源,Meta的AI路线大转弯

    Avocado另一个值得关注的动向是,Meta正在告别过去几年力推的开源路线。Avocado预计会以闭源形式发布,只提供API和托管服务,不再像Llama系列那样开放权重。这个转弯不可谓不大,背后自然是CEO扎克伯格对”超级智能”的执念在驱动。

    对于Facebook、Instagram和WhatsApp上那几亿Meta AI的用户来说,Avocado即便追不上前沿竞品,至少也会比现在基于Llama的回复有明显提升。问题是,Meta会不会选择一个相对低调的时机悄悄上线这些改进,还是非要等一个够排场的发布时刻?目前还没有人能给出准信。


    截至本文发布,Avocado的具体发布日期仍然没有官宣。对于关注Meta AI动向的人来说,不妨盯着点这个月的动静——毕竟,”至少5月”这个说法,留给Meta的时间已经不多了。

  • 中国AI视频生成弯道超车:ByteDance和快手把美国对手甩在身后

    生成式AI打了一年半,大家都盯着力大砖飞的文本模型,结果视频生成这个关键赛道,被中国团队悄咪咪做到了世界前列。金融时报刚出的报道说,开发者圈子里已经有人在私下认了:ByteDance和快手在视频生成上的进展,比美国同行快不止一步。

    自家短视频库就是最好的训练场

    这事说穿了也不复杂。ByteDance手里有TikTok,快手手里有快手短视频,两家加起来的用户生成内容,是任何美国AI实验室都拿不到的数据宝藏。你让Sora团队去哪搞几百亿条真人的、带标注的、多语言的短视频?ByteDance和快手不需要”去哪搞”,数据就在自家服务器上。

    ByteDance推出的Seedance 2.0,快手的Kling 3.0,都是在这几百亿条视频的”喂养”下迭代出来的。美国实验室要训练视频生成模型,要么花钱买数据集(还不一定合法),要么自己拍(规模和多样性完全没法比)。中国这两家的优势,是天生的。

    “中国生成式AI团队已经在视频生成这个生成式AI的关键战场,走在了美国竞争对手前面。”——金融时报报道援引开发者评论

    美国实验室不是没反应,是追起来费劲

    OpenAI的Sora算是美国这边名头最响的视频生成模型,但一直没大规模开放。Google的Veo也在推,但进度和效果跟Seedance、Kling比,开发者群体里已经有不少人在转向中国模型了。不是说美国模型不好,是视频生成这个任务对数据量的依赖太强,而中国公司手里的数据,是美国公司 legally 拿不到的。

    还有一个容易被忽略的点:中国短视频平台上的内容,天生就是”多模态”的——视频、音频、文字评论、用户互动,全套的。用这些数据训练出来的模型,生成出来的视频在语义连贯性、节奏感、甚至”网感”上,都比只用公开数据集训练的模型要自然得多。

    这事的影响比看起来大

    视频生成不是”能不能让AI画会动的画”这么简单。它是通向世界模型(World Model)的必经之路——你想让AI理解物理世界是怎么运转的,先得让它能生成符合物理规律的视频。中国团队在这个方向上领先,意味着它们在”让AI理解真实世界”这个更大规模的竞赛中,已经抢到了一个有利位置。

    another angle是地缘AI竞争。美国一直在想办法限制中国拿到高端GPU,但数据这个维度,它是限制不了的。ByteDance和快手用自己的用户数据训练出来的模型,不需要英伟达最新款的卡也能迭代——当然有更好,但没有的话,靠数据和算法优化也能往前走。


    这个报道出来后,估计又有一波”中国AI威胁论”要冒头。但站在开发者角度,哪家的模型好用、成本低、生成速度快,就用哪家的。视频生成这个赛道,目前是中国团队在领跑,美国实验室需要加快速度了。

    📎 原文来源:USA Daily Dose – Builders say Chinese AI labs lead US rivals in video era(转引Financial Times报道,记者Eleanor Olcott)
  • Mistral CEO喊话法国政府:别让Anthropic的Mythos碰军事代码库

    欧洲AI自主化的焦虑,这次被Mistral AI的联合创始人兼CEO Arthur Mensch摆到了台面上。他在法国国会听证会上明确警告:别让Anthropic的Mythos模型扫描法国军方的代码库,这会让欧洲陷入不可逆的网络安全依赖。

    AI模型不只是”工具”,它能发现漏洞、建议攻击路径

    Mensch说得很直白:现代AI模型已经能编排网络攻击、检测系统漏洞、甚至给出利用建议。这不只是美国系统的能力——Mistral自己的模型、中国开发的AI模型,同样能找到Mythos能找到的那些漏洞。

    那为什么偏偏盯着Anthropic的Mythos不放?因为欧盟正在跟OpenAI和Anthropic谈判,想提前拿到它们最强网络安全模型的访问权限。Mensch的警告是:一旦让你家最敏感的代码库被外国AI”扫描”过了,这依赖关系就几乎不可逆了。

    “欧洲应该在AI基础设施上保持独立,而不是把最敏感的安全审查交给外国实验室。”——Arthur Mensch

    Mistral的”欧洲独立”牌能打多久?

    Mensch在听证会上也提到了Mistral自身的独立性问题。他说美国投资者持股不到30%,公司优先选择欧洲资本,但欧洲拿不出足够资金,才接受了部分美国投资。Mistral不打算卖身,目标是保持独立并最终上市。

    目前Mistral是欧盟唯一一家开发了有竞争力大语言模型的公司。这个叙事在政治上很吃香——欧洲一直担心自己在AI竞赛中沦为附庸,既依赖美国模型,又担心中国模型的数据安全。Mensch的警告,既是为欧洲AI自主化站台,也是在给Mistral自己的政府合同铺路。

    背后是更大的地缘AI博弈

    这事闹得挺大。Anthropic的Mythos是专门针对网络安全场景训练的模型,能力不容小觑。如果欧盟真的让Mythos扫描成员国军事代码库,等于把欧洲最敏感的网络安全底牌交到了一家美国公司手里。Mensch说的”不可逆依赖”,指的是AI模型会通过训练数据”记住”它看过的内容——你让它在你家代码库上跑一遍,它就等于”学过”了。

    类似争议在美国也有。美国国防部用AI审查军事系统,到底是提高效率还是制造新的单点故障,争议一直没停过。欧洲现在的困境是:自己没有同等水平的AI网络安全工具,但又不愿意完全依赖美国。Mistral如果能拿到政府合同,至少能给欧洲一个”自己人”的选项。


    Mensch这波操作,短期看是在帮Mistral抢政府订单,长期看是在押注”欧洲AI主权”这个叙事。问题是,光有叙事不够,Mistral能不能拿出跟Mythos同等水平的网络安全模型,才是法国政府要不要听他建议的关键。

  • 自动驾驶是具身智能上半场,李想让理想”造人”的时间表提前了

    最近汽车圈出了一个挺有意思的判断——理想汽车CEO李想说了一句话,把自动驾驶和人形机器人放在了一条时间轴上:自动驾驶是具身智能的上半场,通用人形机器人是下半场。

    这句话不是随便说说的,背后有一张非常清晰的时间表。上半场自动驾驶分三个阶段:2018到2023年是L2辅助驾驶,2023到2028年是L3,2028到2033年是L4。下半场人形机器人则是:2030到2035年达到6岁泛化能力,2035到2040年达到12岁,2040年之后接近AGI水平。

    李想还做了一个预判:购买L4自动驾驶汽车的用户,和购买家庭家政机器人的用户,重合度将高达90%。这意味着上半场的感知、模型、芯片、控制能力,可以无缝迁移到下半场,形成跨场景的商业闭环。

    研发组织彻底打散重编

    最让人意外的是理想今年1月的研发重组。他们把按软硬件划分的传统部门全部拆掉,按”造硅基人”的逻辑重新组合。infra团队负责算力数据,对应”心脏”;基座模型团队管多模态训练,对应”大脑”;软件本体团队做Agent和工具链,对应”手脚”;硬件本体团队管芯片传感器,对应”身体”;评估团队独立评估工作质量,对应”免疫系统”。

    改完之后立竿见影:智驾模型训练从每两周迭代一次,直接压缩到每天一次。过去部门之间来回扯皮的沟通成本,就这么被彻底消解了。

    两款机器人已经立项

    资金投入上也不含糊。2025年理想研发花了113亿,其中AI相关占一半,2026年预算120亿基本保持同等比例。5月15日上市的L9 Livis,定价50.98万元,是理想切入具身智能赛道的首款量产旗舰。

    值得注意的是,理想前高管创立的至简动力,在发布会当天放出了一个视频:旗下ix和i7两款机器人全程围观新车发布会,其中一台手持理想自研的马赫M100芯片。这说明理想系的人形机器人项目,早已跑在路上了。

    理想L9 Livis
    理想L9 Livis 具身智能旗舰SUV

    李想说这是理想的第三次”逆共识”。前两次分别是2015年坚持增程而非纯电,以及聚焦家庭场景而非个人用户。现在,当行业还在讨论具身智能是否遥不可及时,理想已经把芯片、模型、操作系统全部打通。

    “理想汽车做AI,不是冒险。不做才是冒险。”

    这不只是理想一家的事。国内近期也在从国家层面加速具身智能落地。杭州刚刚启用了全国首个国家级具身智能应用中试基地,130多台机器人在此接受30多种职业技能训练,由中国工程院院士王耀南担任学术委员会主任,宇树科技等行业企业也参与其中。

    从实验室到真实场景,从自动驾驶的感知能力到人形机器人的泛化智能——这场变革正在加速。


  • 500万中国医生的新搭档:阿里健康「氢离子」牵手BMJ,要当医生的循证第二大脑

    阿里健康发布医学AI氢离子
    阿里健康在杭州正式发布医学AI「氢离子」

    5月13日,阿里健康在杭州发布了一款叫「氢离子」的医学AI助手。名字起得就很有意思——氢离子是宇宙中最小最活跃的粒子,寓意是:小而快,精准到原子级别。

    氢离子与英国BMJ集团达成独家合作——70本医学期刊过去十年的全文内容,中国医生可以在线阅读、翻译、循证问答。这是国际顶级期刊首次牵手中国AI。

    为什么中国医生需要它?

    中国有约500万执业医生,但大多数人获取前沿医学研究的通道并不畅通。文献分散在各数据库里,语言是一道墙,付费门槛又是一道墙。更麻烦的是,用通用AI查医学问题?幻觉率高得吓人,一个编造的参考文献可能就误导了临床决策。

    氢离子想解决的正是这个矛盾:让医生有一个低幻觉、高循证的AI助手,不是随便聊天的通用大模型,而是严格基于循证医学的决策支持工具。

    四层循证AI架构:每句话都有出处

    氢离子的底层逻辑跟通用大模型完全不同,它搭了四层循证闭环:

    • 证据理解层:所有指南和文献进入系统时,按PICO框架和GRADE标准结构化理解
    • 循证检索层:基于PICO的检索与数据增强,保证每句话有据可查
    • 模型强化层:微调让模型学会什么叫准确、忠实循证、安全有用
    • 专家评审层:300+临床专家参与质量闭环

    简单讲就是:从理解到检索,从训练到评审,每一步都强制溯源。输出的每个回答都可追溯、可验证、可信赖。


    BMJ独家授权意味着什么

    BMJ集团成立于1840年,旗下70余种一流医学期刊,旗舰刊《英国医学杂志》是全球最具影响力的医学期刊之一。这次合作不是简单的接入API——是全文授权,不是摘要检索。中国医生可以在氢离子里直接读BMJ的全文、做循证问答、在线翻译。以前要么订阅贵得离谱的数据库,要么忍着语言障碍啃原文,现在一个入口全搞定。

    而且氢离子此前已经跟中华医学会、人民卫生出版社、中国抗癌协会达成深度合作。BMJ是国际线,国内线早就铺好了。

    从信息检索到循证第二大脑

    全球医学AI正从通用智能转向循证可信,氢离子走的是后一条路。定位不是搜索工具,是医生的循证第二大脑——查文献、读全文、做循证问答、辅助临床决策,一条链路走通。300+临床专家参与评价标准制定和数据集建设,10位顶级专家把学术方向,50位指导委员会定评测方法论,还有来自复旦100强医院的评测医生持续验证反馈。

    这个方向其实对了。医学AI的核心矛盾从来不是能不能聊天,而是能不能别编。氢离子用四层循证架构+顶刊授权+专家评审来降幻觉,思路比堆参数实在得多。

  • ArXiv出手了:用AI写论文不检查?直接封号1年

    预印本平台ArXiv最近干了件大事。他们更新了 submission 政策——以后要是你的论文里出现”AI完全代写且没人工核对”的实锤证据,作者会被封号整整一年。

    这事儿说起来挺有意思。ArXiv那帮管理者(领导核心是计算机科学版块主席Thomas Dietterich)直接在X和Bluesky上发了公告,核心意思很明确:如果发现论文里有”无可争议的证据”证明作者根本没检查LLM生成的结果,那整篇论文的内容都不可信。

    “如果发现论文存在无可争议的证据表明作者未检查LLM生成的结果,这意味着我们无法信任论文中的任何内容。”——Thomas Dietterich,ArXiv计算机科学版块主席

    什么样的证据算”无可争议”?

    Dietterich说得很具体:幻觉参考文献(hallucinated references)、论文里残留的LLM提示词或对话记录,这些都属于”铁证”。一旦被发现,处罚很直接——1年内禁止向ArXiv提交任何论文,1年后再想投稿,必须先在有同行评审的知名期刊/会议上发表过才能解锁资格。

    Business research concept
    学术研究需要真实贡献,而非AI生成的”垃圾论文” (图片来源:Getty Images)

    注意啊,这政策不是”完全禁止用LLM”。人家说得清清楚楚:你可以用AI辅助写作,但必须对生成的内容”负全部责任”,不管内容是咋生成的。如果你直接从LLM复制粘贴了”不合适的语言、抄袭内容、偏见内容、错误、失误、不正确的参考文献或误导性内容”——那都是你的责任。

    执行方式:一次出局

    Dietterich跟404 Media说,这是”一次出局”(one-strike)规则。不过执行前得走流程:版主先标记问题,然后版块主席确认证据,最后才处罚。作者要是不服,也可以申诉。


    为啥现在管这么严?

    最近有同行评审研究发现,生物医学研究领域伪造引用的情况在飙升,大概率跟LLM的使用有关。其实不止科学家,好多人都被AI生成的假参考文献坑过。

    ArXiv这两年一直在跟”AI垃圾论文”斗智斗勇。之前就已经要求首次投稿的作者必须找个”有信誉的作者”背书,现在又出了这个1年封号的政策。再加上ArXiv刚从康奈尔大学独立出来变成非营利组织,筹钱能力更强了,估计后续还会有更多手段来对付AI slop。

    • 政策并非完全禁止LLM,而是要求作者对内容负责
    • “铁证”包括幻觉参考文献、残留的LLM对话记录等
    • 处罚:1年封号 + 后续投稿需先通过同行评审
    • 执行流程:版主标记 → 版块主席确认 → 处罚(可申诉)