博客

  • 合并三个月,50人跑路:马斯克的SpaceXAI正在被掏空

    今年2月,SpaceX把xAI收入囊中,马斯克把这两家自己旗下的公司合二为一,取名SpaceXAI,估值1.25万亿美元。当时马斯克对外描绘的蓝图很宏大——火箭、卫星、AI模型、轨道数据中心,一套垂直整合的创新引擎。可三个月过去了,这架引擎还没飞起来,人先跑了。

    SpaceXAI总部
    SpaceXAI,马斯克旗下新合并的AI公司(图片来源:Getty Images)

    50人离职,几乎搬空了核心团队

    根据The Information的报道,自2月合并以来,已有超过50名研究员和工程师离开了SpaceXAI。这个数字听起来可能不太多,但考虑到xAI本来就是个几百人规模的团队,50人的流失率已经相当惊人。

    最让人担心的不是走了多少人,而是走了哪些人。Grok的编码团队、世界模型团队、语音功能团队都受到了冲击,而负责训练新模型的预训练团队缩水最严重——从之前的规模缩减到只剩下几个人。预训练团队负责人Juntang Zhuang也已经离职,这对一个要跟OpenAI、Anthropic正面对抗的AI公司来说,相当于把造发动机的工程师全放走了。

    xAI几乎所有的联合创始人(除了马斯克本人)都已经离开了。合并后宣布的第一波离职名单里就包括两位联合创始人。

    竞争对手趁机挖人

    这50多人不是凭空消失的,他们中的大多数人都有了明确去处。Meta是最大的赢家,至少收了11名前SpaceXAI员工。Mira Murati创办的Thinking Machines Lab也招走了至少7人。还有一些人去了Anthropic,或者自己出来创业。

    AI人才市场的竞争本来就激烈到离谱,顶级研究员的薪酬包能跟职业运动员和基金经理掰手腕。当SpaceXAI内部的稳定性开始动摇,外部机会又唾手可得的时候,走人几乎成了理性选择。

    马斯克的”极限文化”又一次出了问题

    离职背后的原因不只是竞争对手挖角那么简单。The Information引用的消息源提到,马斯克给模型训练设定了不切实际的截止日期,导致团队在Grok开发上走捷径。这种高压文化在特斯拉就屡遭抱怨,现在在SpaceXAI重演了。

    另外,把一个前沿AI实验室塞进一家航天公司,组织架构的冲击也不小。研究人员习惯了快速迭代和学术自由,突然要适应航天工业的流程和层级,水土不服是意料之中的。

    还有钱的因素。SpaceX定期提供股票回购计划,让员工可以把已归属的股票变现。当一部分员工手里有了现金,又对未来IPO有了信心,留下来忍受高压的动力就弱了很多。


    钱和规模救不了人才流失

    SpaceXAI并不是没有牌可打。算力资源、资金储备、马斯克的话题制造能力,这些都是实打实的优势。就在离职消息传出来之前,SpaceX还和Cursor达成了一笔交易——可以选择以600亿美元收购Cursor,或者支付100亿美元获取双方共同开发的技术。

    但AI竞争的核心不是谁钱多,而是谁手里有最好的研究团队。Meta在疯狂砸钱招人,OpenAI在持续扩大企业版图,Anthropic在企业客户上实现了对OpenAI的反超,Thinking Machines Lab还没发布产品就已经吸引了大批精英。在这样一个环境下,SpaceXAI的50人离职潮不是个小问题,它可能直接拖慢公司追赶前沿模型的速度。

    一个正在打造人类太空未来的公司,眼下却面临一个更接地气的挑战:怎么让自己最顶尖的AI研究员不要走出那扇门。

  • 500万中国医生的新搭档:阿里健康「氢离子」牵手BMJ,要当医生的循证第二大脑

    阿里健康发布医学AI氢离子
    阿里健康在杭州正式发布医学AI「氢离子」

    5月13日,阿里健康在杭州发布了一款叫「氢离子」的医学AI助手。名字起得就很有意思——氢离子是宇宙中最小最活跃的粒子,寓意是:小而快,精准到原子级别。

    氢离子与英国BMJ集团达成独家合作——70本医学期刊过去十年的全文内容,中国医生可以在线阅读、翻译、循证问答。这是国际顶级期刊首次牵手中国AI。

    为什么中国医生需要它?

    中国有约500万执业医生,但大多数人获取前沿医学研究的通道并不畅通。文献分散在各数据库里,语言是一道墙,付费门槛又是一道墙。更麻烦的是,用通用AI查医学问题?幻觉率高得吓人,一个编造的参考文献可能就误导了临床决策。

    氢离子想解决的正是这个矛盾:让医生有一个低幻觉、高循证的AI助手,不是随便聊天的通用大模型,而是严格基于循证医学的决策支持工具。

    四层循证AI架构:每句话都有出处

    氢离子的底层逻辑跟通用大模型完全不同,它搭了四层循证闭环:

    • 证据理解层:所有指南和文献进入系统时,按PICO框架和GRADE标准结构化理解
    • 循证检索层:基于PICO的检索与数据增强,保证每句话有据可查
    • 模型强化层:微调让模型学会什么叫准确、忠实循证、安全有用
    • 专家评审层:300+临床专家参与质量闭环

    简单讲就是:从理解到检索,从训练到评审,每一步都强制溯源。输出的每个回答都可追溯、可验证、可信赖。


    BMJ独家授权意味着什么

    BMJ集团成立于1840年,旗下70余种一流医学期刊,旗舰刊《英国医学杂志》是全球最具影响力的医学期刊之一。这次合作不是简单的接入API——是全文授权,不是摘要检索。中国医生可以在氢离子里直接读BMJ的全文、做循证问答、在线翻译。以前要么订阅贵得离谱的数据库,要么忍着语言障碍啃原文,现在一个入口全搞定。

    而且氢离子此前已经跟中华医学会、人民卫生出版社、中国抗癌协会达成深度合作。BMJ是国际线,国内线早就铺好了。

    从信息检索到循证第二大脑

    全球医学AI正从通用智能转向循证可信,氢离子走的是后一条路。定位不是搜索工具,是医生的循证第二大脑——查文献、读全文、做循证问答、辅助临床决策,一条链路走通。300+临床专家参与评价标准制定和数据集建设,10位顶级专家把学术方向,50位指导委员会定评测方法论,还有来自复旦100强医院的评测医生持续验证反馈。

    这个方向其实对了。医学AI的核心矛盾从来不是能不能聊天,而是能不能别编。氢离子用四层循证架构+顶刊授权+专家评审来降幻觉,思路比堆参数实在得多。

  • 英伟达2.6B小模型跑赢行业巨兽:单卡生成1分钟720p视频的世界模型来了

    前两天NVIDIA的NVLabs悄悄丢了个炸弹——SANA-WM,一个只有2.6B参数的开源世界模型,能在一块H100上生成720p、1分钟长的可控视频。你没有看错,一块卡,一分钟。

    SANA-WM吞吐量比开源基线高36倍,动作跟随准确率超过所有现有开源方案,视觉质量却跟大规模工业模型差不多。

    混合线性注意力:让长视频不再OOM

    做长视频生成最头疼的问题就是显存爆炸。标准DiT用的Softmax Attention是O(n²)复杂度,生成60秒视频(约1800帧)时,纯Softmax方案大概跑到15秒就OOM了。

    SANA-WM的解法很巧妙——混合线性注意力。帧与帧之间用Gated DeltaNet做线性依赖(O(n)复杂度),每隔几帧再插一次Softmax Attention保长程一致性。这样既控制了显存,又没丢掉全局关联。效果就是:别人OOM的时候,它还在稳稳生成。

    双分支相机控制:6自由度精确驾驭

    世界模型跟普通文生视频最大的区别在于可控性。SANA-WM支持6自由度(6-DoF)相机轨迹控制,输入一张静态图+相机运动路径,就能生成对应的漫游视频。它用双分支架构:粗粒度全局位姿分支理解相机大致走向,细粒度像素对齐几何分支精确到像素级的几何变化。这让生成的视频不只是像,而是准。

    两阶段生成 + 极致训练效率

    生成流程分两步:2.6B基础模型先出60秒原始视频,再由17B精炼网络提升纹理和运动质量。有意思的是训练效率——只用了21.3万条公开视频片段(带6-DoF标注),64张H100跑15天就完事。对比同行动辄256+卡跑几个月,这个数据效率相当亮眼。

    • 蒸馏版 + RTX 5090:60秒720p视频34秒出片
    • 吞吐量:开源基线的36倍
    • 动作跟随准确率:超越所有开源方案
    • 视觉质量:对标LingBot-World等工业基线

    世界模型 vs 文生视频:两条路的分歧

    Sora、Kling这些文生视频模型走的是文字驱动路线,控制力偏弱;SANA-WM这类世界模型走的是图像+轨迹驱动路线,控制力强、物理合理性高。说白了,文生视频像是给AI一段描述让它自由发挥,世界模型像是给AI一张照片和运动指令让它精确执行。

    应用场景也很明确:自动驾驶仿真、机器人训练、游戏内容生成、影视预可视化、建筑漫游……任何需要如果相机这样动,世界会怎样的场景,都是世界模型的主场。

    2.6B参数就能做到这个程度,开源社区该兴奋了。代码已在GitHub放出(NVlabs/Sana-WM),权重按CC BY-NC-SA 4.0许可即将发布。

  • 不依赖云端就能跑DeepSeek?这个Mac工具让AI回归本地

    跑AI模型基本等于把数据扔给云端服务器处理,你的文档、代码、聊天记录全在别人机器上过一遍。有个叫Osaurus的开源项目想换个玩法——把AI塞进你的Mac里,本地跑模型,数据不离开你的硬盘。

    Osaurus应用界面
    Osaurus在Mac上的运行界面

    一个前特斯拉工程师的执念

    Osaurus的创始人Terence Pae之前在特斯拉和Netflix做软件工程师。他的想法很直接:既然Mac有越来越强的芯片,为什么不能让AI直接在本地跑?这个项目从一个叫Dinoki的桌面AI伴侣进化而来,现在已经是一个完整的LLM服务器,支持本地和云端模型无缝切换。上线不到一年,下载量已经超过11万次。

    “去年本地AI连句子都写不完,但今天它能跑工具、写代码、访问浏览器、从亚马逊买东西。进步速度太快了。”——Terence Pae

    本地+云端,两不耽误

    Osaurus最实用的地方在于它不是非此即彼。你想跑DeepSeek V4、Gemma 4、Llama这些开源模型?本地来。你想用GPT、Claude、Gemini?连上云端API就行。所有记忆、文件、工具都留在你自己的硬件上。通过硬件隔离的虚拟沙箱来保证安全,数据不会被随便传走。

    它还有20多个原生插件——邮件、日历、浏览器、音乐、Git、文件系统、Excel、PPT这些都能直接操作。最近还加了语音功能。本质上它把自己定位成一个”AI控制层”,不管底层用什么模型,上层体验统一。

    硬件门槛和商业化方向

    门槛不算低——最低64GB内存,想跑大模型推荐128GB。不过Pae认为这个门槛会越来越低,因为”每瓦特能输出的智能”在快速提升,这条曲线的斜率甚至比GPU的摩尔定律还陡。

    竞争对手不少——Ollama、LM Studio、Msty都是这条赛道上的玩家。但Osaurus的差异在于它面向普通用户而非开发者,界面更友好。目前项目完全开源免费,团队在纽约的Alliance加速器里打磨产品,未来考虑切入法律和医疗这些对隐私要求极高的B2B场景。


    • Osaurus是Mac专属的开源LLM服务器,支持本地+云端模型切换
    • 创始人Terence Pae,前特斯拉和Netflix工程师
    • 上线近一年下载量超11万,20+原生插件
    • 最低硬件要求64GB内存,推荐128GB
    • 面向非开发者群体,计划切入法律/医疗等隐私敏感领域
    📎 原文来源:Osaurus brings both local and cloud AI models to your Mac (TechCrunch, Sarah Perez, 2026-05-15)
  • 一边创纪录赚158亿,一边裁4000人:思科的AI阳谋

    5月14号,思科干了件让硅谷炸锅的事——同一天公布创纪录的季度财报和近4000人的裁员计划。股价在盘后涨了差不多20%,华尔街用真金白银给这个决定投了赞成票。

    Chuck Robbins在2026年Semafor世界经济大会上发言
    思科CEO Chuck Robbins,2026年4月15日华盛顿Semafor世界经济大会

    钱没少赚,人照样裁

    思科2026财年第三季度收入158亿美元,同比涨了12%。CEO Chuck Robbins在博客里高调宣布”创纪录营收”和”两位数增长”,话音刚落就甩出裁员通知。这不是思科第一次这么干了——2024年两轮裁员5600人,2025年又裁了150人,加起来这已经是第四轮了。CFO Mark Patterson的说法很体面:这不是为了省钱,而是”快速把资源重新分配到硅芯片、光模块、安全和AI这些优先领域”。

    “AI时代能赢的公司,是那些有聚焦、有紧迫感、有纪律去持续把投资转向需求和长期价值最强领域的公司。”——Chuck Robbins

    9亿美元的AI订单意味着什么

    真正驱动思科动作的不是节流,而是开源。微软、Google、亚马逊、Meta这些超级云厂商正在疯狂建设计算集群,对高带宽网络设备的需求创了历史新高。思科本财年AI基础设施订单已经53亿美元,全年预计能到90亿——这比年初预估的50亿几乎翻了一番。数据中心交换机订单涨了40%以上,网络产品订单涨了50%以上。这不是周期性波动,而是一个”网络超级周期”的开端。

    裁掉4000人,补上AI工程师

    思科给被裁员工提供了遣散费、按比例发放的奖金、一年免费课程和就业安置服务。但Gartner的分析师Helen Poitevin一针见血地指出:”很多CEO用裁员来展示AI的快速回报,但这个思路是错的。裁员也许能腾出预算,但不创造回报。真正提升ROI的公司,不是那些消除了对人的需求的公司,而是那些放大了人的能力的公司。”

    Gartner今年5月的调查更有意思:350家年收入超10亿美元的企业中,80%因部署AI而裁了人,但裁员公司的财务表现和没裁员的公司几乎一模一样。他们甚至预测到2027年,50%把裁员归因于AI的公司会重新雇佣类似岗位的人,只不过换了种头衔。

    Sam Altman也说了句大实话:”有些AI洗白存在,人们把本就要做的裁员怪到AI头上。”虽然AI确实在替代工作,但这两件事混在一起,外人很难分辨。


    • 思科Q3营收158亿美元,同比+12%;盘后股价涨约20%
    • 裁员约4000人(占员工总数5%),2024年以来第四轮
    • 全年AI订单预期从50亿上调至90亿美元
    • Gartner调查:80%大企业因AI裁员,但财务表现无明显差异
    • 2026年前4个月美国科技裁员超8.5万人,AI是最多引用的原因
    📎 原文来源:Cisco cuts nearly 4,000 jobs to spend more on AI, reports record quarterly revenue (TechCrunch, Zack Whittaker, 2026-05-14)
  • AI开始自己造自己了?前You.com创始人携6.5亿美元杀回来

    当一个AI系统能自己找出自己的弱点,然后动手改掉它——全程不需要人类插手——会发生什么?这听起来像科幻小说,但Richard Socher觉得这就是下一件真实发生的事。

    Socher不是无名之辈。他创立了早期AI搜索引擎You.com,在那之前还是ImageNet的论文作者之一。本周三,他带着一家叫Recursive Superintelligence(递归超智能)的新公司正式走出隐身模式,首轮融资就拿到了6.5亿美元,投资方包括Greycroft和GV(Google Ventures)。

    目标:让AI递归地自我改进

    递归超智能这个名字就说明了野心。Socher在接受TechCrunch采访时说:

    “我们主要的聚焦点是建立真正递归的、自我改进的超大规模智能体。这意味着整个过程——产生研究想法、实施想法、验证结果——全程自动。”

    他特别强调,这种递归自我改进不是简单的”让AI去优化某个东西”。那只是改进,不是递归。真正的递归,意味着AI系统能够自主识别自己的缺陷,然后自己动手改代码或架构,形成一个持续向上的闭环——没有人类干预的循环。

    团队里全是狠人

    Socher这次拉来的队友份量十足:Google AI元老Peter Norvig、前OpenAI Codex和深度研究团队负责人Josh Tobin,以及Google DeepMind开放性(open-endedness)研究团队的Tim Rocktäschel——Genie 3世界模型的缔造者。

    Rocktäschel提出的”彩虹红队”(rainbow teaming)概念尤其有意思:两个AI互相攻防,一个不断寻找对方的漏洞,另一个持续修复进化——就像自然界猎豹和瞪羚的军备竞赛,能在数百万次迭代中产生远超单一方向优化的效果。这套方法已经被各大AI实验室广泛采用。

    产品多久能出来?

    Socher说产品推出时间可能比原计划提前,但他还是卖了个关子:“几季度内,不是几年内。”

    他真正想探讨的,是一个更深层的问题——一旦这种递归自我改进成为现实,计算资源将变成唯一真正稀缺的东西。Socher打了个比方:未来人类会面临选择——要不要用多少算力去治愈某种癌症?这类问题将成为全球最大的资源分配决策。

    “我们对智力的上限一无所知——它可能是天文数字级别的,我们离那个边界还远得很。但正因如此,这个问题值得认真对待。”

    说到底,Recursive Superintelligence想要做的,其实也是整个AI行业最核心的那道谜题:机器能否真正理解自己,然后超越自己?6.5亿美元,Socher至少已经迈出了第一步。


    AI递归自我改进概念图
    递归超智能:AI开始自己造自己
    📎 原文来源:What happens when AI starts building itself? — TechCrunch, Russell Brandom, 2026-05-14
  • 马斯克告OpenAI案进入庭审:陪审团到底要判什么?

    加州九名陪审员现在正在审议这个案子——Elon Musk把OpenAI的联合创始人及微软告上了法庭。

    Musk到底在争什么?

    诉讼核心围绕三个主张:

    • 违反慈善信托:Musk方认为他的捐款有明确附加条件——只能用于推进OpenAI的非营利使命,让AI惠及全人类,而不该被拿去支持商业化产品
    • 不当得利:联合创始人Altman、Greg Brockman等人通过OpenAI营利子公司套现,Musk认为这本质上是用他的捐款在养肥这些人
    • 协助违约:微软明知Musk的捐款有条件,还帮OpenAI偏离了原始使命

    Musk方把2023年微软那笔100亿美元投资视为”关键转折点”——正是这笔交易,让OpenAI的营利性质彻底压过了慈善属性。

    OpenAI怎么反驳?

    OpenAI的辩护律师阵容相当豪华,从慈善信托的成立依据到诉讼时效,一路反击。核心论点有三个:

    • 诉讼时效:一名审计会计师作证说,Musk的所有捐款在2021年8月5日之前就已全部用完。这意味着即便存在违约,也早已超过了法律追诉期限
    • 无限制条件:OpenAI要求所有证人描述Musk捐款的”具体限制”,结果无论是他的财务顾问Jared Birchall、首席幕僚Sam Teller还是特别顾问Shivon Zilis,没有一个人能说出来
    • 道德污点:Musk本人在担任OpenAI主席期间就已在策划自己的竞品AI,还挖走了OpenAI的研究人员去特斯拉做AI——OpenAI律师直接说:”Musk在2018年就放弃OpenAI了。”

    OpenAI的律师指出,营利子公司已为非营利基金会积累了近2000亿美元的股权价值。Altman本人甚至在法庭上辩护:”ChatGPT免费向公众开放,这本身就是把AI好处分享给全世界的体现。”

    微软的角色:帮凶还是旁观者?

    Musk方把矛头指向了微软——指出微软与OpenAI的协议中包含一个条款,赋予了微软对OpenAI重大决策的否决权。Musk方认为,这说明微软深度介入了OpenAI的战略转向,是”协助违约”的直接证据。

    微软方面的证人则坚持,公司高管在尽职调查中从未被告知Musk捐款附带任何条件,微软也从没动用过这个否决权。CEO纳德拉在Altman被炒又火线回归的”那几天”里确实出手帮了忙,但这究竟是”帮忙稳定局面”还是”干预非营利治理”,陪审团还得自己判断。

    这案子最终会怎么收场?

    如果Musk胜诉,理论上OpenAI可能被迫转型为纯公益机构,不再有营利子公司。但这背后的执行复杂度极高——下周法官还要单独开一系列听证会,讨论如果陪审团判Musk赢,具体的救济措施是什么。

    不管结果如何,这场官司早已超越了个人恩怨。它在拷问一个问题:全球最顶尖的AI实验室,到底是”造福人类的安全网”,还是”穿着慈善外衣的商业机器”?这个问题的重要性,大概比陪审团的任何裁决都要深远得多。


    Elon Musk与Sam Altman
    图:Elon Musk vs. OpenAI — 庭审现场
    📎 原文来源:What the jury will actually decide in the case of Elon Musk vs. Sam Altman — TechCrunch, Tim Fernholz, 2026-05-14
  • Runway不服硅谷规则:押注世界模型,要和Google正面对决

    Runway这家AI视频生成创业公司,没有典型的硅谷血统。没有斯坦福创始人,没有前Google员工,没有九位数的种子轮让你有资本无视收入。它的三个创始人——两个来自智利,一个来自希腊——在纽约大学Tisch艺术学院相遇,然后在纽约建立了这家公司。

    但Runway也可能是当今最重要的AI公司之一,这取决于你问谁。不是因为它已经构建了什么,而是因为它正在试图构建什么。

    “每个主要AI实验室都在押注语言。Runway押注他们都错了。”

    不同的赌注

    过去几年,AI行业基本在一个前提上运作:智能存在于语言中。OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型反映了这个赌注。

    Runway和其他一些竞争对手正在做一个不同的赌注。它的创始人相信,下一代AI智能不会从文本中构建,而是从视频和世界模型中学习这个世界如何运作,而不仅仅是人类如何描述它。这个区别听起来很学术,但它的影响可不学术。

    Runway联合创始人兼联席CEO Anastasis Germanidis说,直接在来自世界的观察数据上训练模型是AI的下一个前沿。他认为,最先到达那里的公司,不会是那些完善了语言的公司。

    Runway三位创始人
    Runway三位创始人(左起:Cristóbal Valenzuela, Anastasis Germanidis, Alejandro Matamala Ortiz)

    从视频生成到世界模型

    Germanidis告诉TechCrunch:”我们基本上受限于自己对现实的理解。语言模型是在整个互联网上训练的,在留言板、社交媒体、教科书上——提炼现有的人类知识。但要超越这一点,我们需要利用更少偏见的数据。”

    成立于2018年的Runway以其视频生成模型(包括最新的Gen-4.5)和让人们将文本提示转换为可编辑的电影内容的AI工具建立了声誉。

    今天,Runway的技术为电影制作人和广告公司提供生产工作流程,并且该公司已与主要媒体公司如Lionsgate和AMC Networks签署了协议。它的工具甚至被用于像《Everything Everywhere All At Once》这样的电影中。


    商业表现与估值

    Runway现在的估值为53亿美元,并且根据其一位创始人的说法,在2026年第二季度增加了4000万美元的年度经常性收入(ARR)。

    如果Runway关于视频生成是通往世界模型的道路的赌注成功,其结果将从好莱坞影响到药物发现和机器人技术。如果不成功,Runway就有可能被资金远为雄厚的竞争对手——其中Google首当其冲——超越。

    世界模型:科学的数字基础设施

    在过去的六个月里,这家创业公司已经将其计划付诸行动,扩展到视频生成之外,在12月推出了它的第一个世界模型(AI系统可以足够好地模拟环境来预测它们将如何行为),并计划在今年推出另一个。

    Germanidis将世界模型视为科学基础设施。你在单个模型上训练的感觉数据和观察越多,你就越接近宇宙的工作数字孪生——一个你可以比任何实验室都快地运行实验的模型。

    “如果我们能建立一个比人类科学家更好的科学家,我们就能加速我们理解宇宙和解决问题的方式。” —— Anastasis Germanidis

    竞争加剧:不缺对手

    Runway在追求将物理感知的视频模型转化为世界模型方面并不孤单,近期应用案例包括交互式娱乐、游戏和机器人训练。初创公司Luma和World Labs也处于类似的轨迹上,Google也将其Genie世界模型指向同一方向。

    所有人都在追求某种版本的同一件事:解决人类最困难问题的AI。这与Runway的原始产品相去甚远,但这是技术中突现能力和创始人倾向于跟随它引导的结果。

    Runway能否将其视频主导地位带入世界模型还远未确定,竞争也不会等待。Runway是首批开发AI视频生成的公司之一,但世界模型是一场不同的竞赛,有资金雄厚且备受尊敬的竞争对手。Google、前Meta首席科学家Yann LeCun、AI的”教母”Fei-Fei Li,以及越来越多的初创公司都在追逐同一个目标。

    资源和挑战

    AI技能基准公司Workera的CEO兼斯坦福大学讲师Kian Katanforoosh指出,还没有人证明通过世界模型在视频智能和通用推理之间的跳跃,但这并不意味着不可能。他说,如果Runway想将其世界模型赌注变为现实,就需要继续收集资源——其中计算能力首当其冲。

    Runway与CoreWeave和Nvidia有协议,但不愿确认是否有专用的集群访问权限——这是训练前沿模型所需的有保障的大规模计算。

    “没有集群,你要如何建立基础模型?我不认为任何人能做到。” —— Kian Katanforoosh

    Runway迄今为止已筹集了8.6亿美元,包括2月份来自AMD Ventures和Nvidia等战略合作伙伴的3.15亿美元轮融资。根据PitchBook的数据,这与其最直接的竞争对手Luma AI和World Labs大致一致,后两者分别筹集了9亿美元和12.9亿美元。

    但Runway也要面对现任者如OpenAI(根据CEO Sam Altman的说法已筹集约1750亿美元)和科技巨头Google的竞争,其母公司的价值为4.86万亿美元。Google是Runway的最大威胁。该公司的Veo模型直接与Runway的视频生成业务竞争,而其Genie世界模型针对的是Runway正在冲刺的同一长期领域。


    Runway的优势:不按常理出牌

    Katanforoosh并没有把Runway排除在外。他指向AI音频初创公司ElevenLabs,该公司在自己的基准测试上超越了OpenAI和Google,尽管缺乏任一公司的资源和血统。他认为,Runway可以遵循类似的剧本。

    这种比较并没有失去Runway创始人的注意。Valenzuela说,创业公司缺乏湾区的”标准化”给了他们优势。他认为,他们不仅有思想的多样性,而且没有硅谷的关系,他们必须更加精明,缺乏许多同行可以获得的战争基金,这些基金本可以使他们不必在早期生成收入。

    根据Runway首席运营官Michelle Kwon的说法,尽管计算需求随着规模增加,公司并不急于筹集更多资金。

    早期投资者、Compound的管理合伙人Michael Dempsey告诉TechCrunch:”他们的背景让他们能够早早出发,比不更频繁地正确,并建立一种移动得非常快的文化。”

    对Valenzuela来说,这种文化始于他首先如何看待世界。他会把任何空闲时间——作为联席CEO和新父亲,时间不多——用来读书,包括智利诗人Nicanor Parra,他描述为Pablo Neruda的对立面:不那么正式,不那么学术,持有一种认为诗歌属于人民而不是规则的观点。

    “规则只是他们发明的规则。这是我们在Runway做事的一个驱动力。他们说硅谷在这里,初创公司就在这里。为什么?那些只是编造的规则。把它们都擦掉,重新开始。” —— Cristóbal Valenzuela

    📎 原文来源:Runway started by helping filmmakers — now it wants to beat Google at AI(TechCrunch, Rebecca Bellan, 2026-05-15)
  • AI淘金热的两极分化:1万人财富自由,其他人却在焦虑什么?

    旧金山的AI淘金热听起来很美好,但现实却是一幅两极分化的景象。 Menlo Ventures的合伙人Deedy Das在社交媒体上发了一篇长文,描述的现象让人咋舌——他说旧金山现在”相当 frenetic(疯狂)”,他见过的最严重的结果分化正在发生。

    Das用了一个” envelope背面计算法”来估算:大概有1万人——包括OpenAI、Anthropic、xAI、Nvidia、Meta TBD这些公司的员工和创始人——已经积累了远超2000万美元的”退休财富”。而其他人呢?即便年薪不到50万美元(这在科技圈已经很高了),他们担心自己一辈子都达不到那个水平。

    “你可以工作一辈子,拿着高薪,但永远到不了那个境界。”这就是大多数科技工作者的现状。

    裁员潮和技能焦虑

    更糟糕的是,裁员正在全面展开。许多软件工程师觉得他们一辈子的技能突然不再有用,这对职业道路的选择造成了混乱,也让人对工作的未来感到深深的萎靡。

    当然,Das的帖子在X上引发了一些白眼。企业家Deva Hazarika认为,帖子里提到的大多数人已经”非常幸运”,完全可以选择开心一点。还有用户指出,在当前这个周期里,同样的技术既是彩票彩票,又在吞噬你的退路——这”相当新颖,也有点恶心”。


    一个时代的缩影

    这大概是AI时代最讽刺的写照:创造财富的技术,同时也在摧毁那些没赶上车的人的职业安全感。1万人的财富自由,换来的是无数科技工作者的存在焦虑。

    有意思的是,这种分化在科技行业内部都这么严重,更不用说整个社会了。AI淘金热创造的不是共同富裕,而是前所未有的财富鸿沟。

    📎 原文来源:The haves and have nots of the AI gold rush(TechCrunch, Anthony Ha, 2026-05-16)
  • ComfyUI:106k Stars!节点式AI创作引擎,让图像生成像搭积木一样可控

    ComfyUI - 最强大的开源节点式生成式AI引擎

    用Stable Diffusion画图的人,大概分两派:一派用WebUI,图个省事;另一派用ComfyUI,追求极致控制力。

    我一开始也是WebUI用户,觉得节点式界面太复杂了。直到有一次我想做一个多步重绘+放大+色调调整的流水线,发现WebUI根本搞不定这种复杂工作流,才被硬推到了ComfyUI这边。

    结果上手之后回不去了 —— 这种节点式的工作流编排方式,一旦理解了逻辑,创作效率简直是质的飞跃。


    🚀 项目简介

    ComfyUI 是目前最强大的开源节点式生成式AI引擎,拥有 106k+ GitHub Stars。它通过可视化节点画布,让用户自由组合各类AI模型和操作,实现高度可定制、可控制的内容生成。不仅支持图像生成,还能处理视频、3D、音频等多种模态。


    ⚙️ 安装要求和过程

    📋 环境要求

    • 操作系统:Windows / macOS / Linux
    • Python 3.13(推荐)或 3.12
    • 显卡:NVIDIA(CUDA 13.0)/ AMD / Intel Arc / Apple Silicon(M系列)
    • PyTorch 2.4+
    • 浏览器:Chrome 143+(推荐)

    🚀 快速安装

    方式一:便携版(Windows,最简单)

    # 下载便携版压缩包,解压即用
    # 内置 Python 3.13 + PyTorch CUDA 13.0
    # 运行 run_nvidia_gpu.bat 即可启动

    方式二:手动安装(全平台)

    git clone https://github.com/comfyanonymous/ComfyUI.git
    cd ComfyUI
    pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu130
    pip install -r requirements.txt
    python main.py

    方式三:桌面版(Windows/macOS)

    # 从 comfy.org 下载桌面安装包
    # 支持一键安装,适合新手

    💡 核心功能

    • 🧩 节点式工作流:通过可视化节点画布自由编排AI生成流程,每个节点负责一个独立操作(加载模型、生成图像、调整尺寸等),灵活度和可控性远超传统UI
    • 🎨 多模态支持:不仅支持图像生成(文生图、图生图、局部重绘、画面外扩),还能处理视频生成、3D模型创建、音频合成等多种创作场景
    • 🔌 丰富的自定义节点生态:Comfy Hub 上有全球创作者分享的数千个工作流和节点插件,一键导入即可使用,持续扩展能力边界
    • 🤖 AI Agent集成:支持本地ComfyUI服务器集成、Comfy Cloud API调用和MCP Server对接,可以与Claude、Cursor等AI智能体打通
    • ⚡ 高性能推理:原生支持最新开源SOTA模型,API节点可接入闭源模型,推理速度快,内存占用低

    ComfyUI 节点工作流界面


    📦 典型使用场景

    🎨 场景1:AI绘画创作

    设计师和插画师用ComfyUI构建个性化图像生成流水线 —— 从线稿上色、风格迁移到批量生成设计稿,一个工作流搞定全流程。相比传统绘图软件,效率提升数倍。

    🎬 场景2:AI视频与3D制作

    内容创作者利用ComfyUI的视频生成节点和3D模型节点,制作短视频素材、产品展示动画、虚拟场景等。节点式编排让复杂的多步视频处理变得可追溯、可复现。

    🏭 场景3:企业级批量生产

    电商团队用ComfyUI搭建商品图自动化工作流:批量换背景、批量生成不同风格的Banner、批量处理产品照片。工作流可保存复用,一次搭建持续受益。


    ⭐ 推荐理由

    说真的,ComfyUI的门槛确实比WebUI高一些,但这个”高”是值得的。

    我最喜欢的是它的可复现性 —— 每个工作流都是一个完整的生成配方,别人拿到你的工作流文件就能一模一样地复现结果。这在团队协作中太重要了,不用再”调参数调到手抽筋还说不清楚用了什么设置”。

    而且ComfyUI的社区生态非常活跃,Comfy Hub上各种神仙工作流应有尽有。不会搭工作流?直接下载别人的改一改就行。这就好比从”自己写代码”进化到了”调用开源库”。

    最近ComfyUI还加入了AI Agent集成能力,支持MCP协议,这意味着你可以让Claude、GPT这些AI智能体直接帮你设计和调整工作流。AI时代的生产力工具,ComfyUI算是把”可控性”做到了极致。


    📧 下载地址