博客

  • Google I/O 2026万字解读:Gemini 3.5 Flash炸场,24小时在线的AI助手来了

    Google I/O 2026万字解读:Gemini 3.5 Flash炸场,24小时在线的AI助手来了

    北京时间5月20日凌晨1点,Google I/O 2026在加州山景城开幕。如果说去年的大会还在讲”AI优先”,今年Sundar Pichai直接把话挑明了:”Google Search就是AI Search”。整场发布会看下来,一个很清晰的信号是:Google正在把Gemini塞进你能想到的所有产品里。

    Gemini月活用户已达9亿,过去一年Google处理的Token达3.2千万亿,同比增长7倍。这个体量,已经不是”在做AI”,而是”AI就是它本身”。

    Gemini 3.5 Flash:快到有点不讲道理

    这次发布的Gemini 3.5 Flash,官方说生成输出Token的速度大约是其他前沿模型的4倍,专为AI Agent和编码工具优化。性能上大概对标GPT-5.5,略逊于Claude Mythos。已经在Search、Gemini App、API全端口上线了。

    速度这个事儿,对AI Agent场景来说确实关键。你想,一个智能体要连续调用好几次模型,每次如果都要等几秒,用户体验直接崩掉。Flash这个”快”不是锦上添花,是能让Agent真正跑起来的前提。Google这次把这个模型免费开放给开发者用,底气挺足的。


    Gemini Spark:24小时在线的个人AI助手

    这个可能是整场发布会最实用的发布。Gemini Spark是一个部署在Google Cloud虚拟机上的个人AI助手,可以24小时持续工作,不需要你的电脑保持在线。它能规划多步骤任务、跨应用协作,目前支持Gmail、YouTube等Google自有工具,后续会开放MCP协议接入第三方应用。

    下周首先向美国地区的Google AI Ultra订阅用户开放,这个套餐的价格也从每月250美元降到了200美元。坦白说,如果Spark真的能做到”你说一句话,它帮你把事儿办了”,200美元一个月对于重度用户来说不算离谱。问题是,现在的AI助手在复杂任务上还是容易翻车,Spark能不能真正可靠地跑起来,得实际用一段时间才知道。


    搜索框的25年来最大升级

    Google搜索这次的升级,官方说是25年来最大的一次。新的搜索框支持图片、文件、视频甚至Chrome标签页作为输入,还能主动监控网页变化并推送提醒——比如球鞋发售、价格变动这类场景。

    这个方向其实挺明确的:搜索不再是你主动去”搜”,而是AI主动帮你”盯”。你告诉它你在等什么,它帮你守着,有变化就通知你。这个逻辑一旦跑通,传统搜索引擎的”关键词匹配”模式基本上是被降维打击了。


    硬件和其他:智能眼镜秋天见

    Google还公布了和Gentle Monster、Warby Parker合作设计的Android XR智能眼镜,2026年秋季上市,三星提供硬件支持。用户可以全天佩戴,通过耳机接收Gemini的语音回答。这个赛道现在有好几家都在做,Apple的Vision Pro走的是高端路线,Google这次看起来是想走更日常的路。

    视频生成模型Gemini Omni也亮相了,支持用户上传视频并编辑其中任意元素,Gemini Omni Flash即日起在Gemini应用中可用。这个能力如果做得足够好,短视频创作者和营销团队大概会第一时间用起来。

    • Gemini 3.5 Flash已全面上线,输出速度领先竞品4倍
    • Gemini Spark个人智能体下周向Ultra用户开放,月费降至200美元
    • Google搜索迎来25年来最大升级,支持多模态输入和主动监控
    • Android XR智能眼镜2026年秋季上市,全天佩戴+语音交互
  • OpenAI秘密递交IPO申请,万亿估值瞄准史上最大科技上市

    OpenAI秘密递交IPO申请,万亿估值瞄准史上最大科技上市

    5月22日,OpenAI向美国证券交易委员会(SEC)秘密提交了IPO招股书,目标估值超过1万亿美元,最早可能在2026年9月正式上市。如果成功,这将成为科技史上规模最大的IPO之一。

    这事儿其实早有征兆。5月17日,马斯克起诉Sam Altman的案件被陪审团一致驳回,OpenAI最大的法律不确定性一下子消失了。紧接着,他们就请来了前DocuSign首席财务官Cynthia Gaylor担任首任投资者关系负责人——这动作摆明了就是在为上市做最后准备。

    OpenAI当前ARR(年度经常性收入)为250亿美元,周活跃用户超9亿,付费订阅用户超5000万。按1万亿美元估值计算,市销率高达40倍。

    钱烧得很快,但收入涨得更快

    看一下数据就明白为什么OpenAI敢要这么高的估值。2026年3月31日,他们刚完成一轮1220亿美元的私募融资,投后估值8520亿美元,投资方包括亚马逊(500亿)、英伟达(300亿)、软银(300亿)。如果IPO真的按1万亿估值定价,比三个月前又涨了17%。

    收入结构也挺有意思。企业收入占比已经超过40%,预计2026年底就能和消费者收入持平。API每分钟处理150亿tokens,这个量级说明企业客户正在大规模接入OpenAI的能力。不过话说回来,他们现在还在亏钱,2026年预计运营亏损约140亿美元,主要花在算力采购和留住顶尖研究员上(听说顶级研究员签约奖金能到1000万美元)。


    为什么现在急着上市?

    一个很直接的原因是:Anthropic跑得太快了。2026年Q2,Anthropic营收109亿美元,年化收入436亿美元,还实现了首次运营利润5.59亿美元——比自己定的2028年盈利目标提前了两年。Claude Code上线才6个月,企业编程收入就超过了OpenAI。OpenAI肯定不想等Anthropic的财务数据变成公开市场可比标的之后,再让别人来定AI公司的估值基准。

    还有一个关键是微软的配合。2026年4月,OpenAI和微软修订了合作协议,微软放弃了部分独家权利,换取营收分成安排。调整后,OpenAI可以更灵活地在AWS、谷歌云销售服务,同时保留Azure作为核心基础设施合作伙伴。微软目前持有OpenAI约27%的股权,如果上市前不理顺这个关系,公开市场投资者肯定会打个折扣。


    上市后会发生什么?

    按目前的时间表,2026年Q3是招股书修订和路演筹备期,Q4(10-11月)是最可能的上市窗口。上市后,锁定期通常90-180天,也就是说2027年早中期,内部人士和后期私募投资者就可以出售股票了。

    对行业来说,OpenAI的IPO会第一次把AI公司的真实经营数据——算力成本、客户流失率、毛利率——摆到公开市场的桌面上。Anthropic、xAI、Mistral这些实验室的估值,都会参照OpenAI的公开估值倍数重新定价。以前大家都在暗处比谁融得多,现在要拿到太阳底下比谁赚得多了。

    • OpenAI IPO完成后,AI行业将首次拥有公开市场的估值基准
    • 强制季度财报披露将重塑全市场对AI公司的估值逻辑
    • 此前无法直接投资前沿AI的机构投资者将获得首个流动性入口
  • Hugging Face Transformers:159K Stars!AI开发的万能适配器,1000+预训练模型随手可用

    Hugging Face Transformers:159K Stars!AI开发的万能适配器,1000+预训练模型随手可用

    Hugging Face Transformers

    Hugging Face – AI社区与开源生态引领者


    📌 项目简介

    Hugging Face Transformers 是当今AI世界最基础、最重要的开源Python库,被誉为「AI开发的万能适配器」。它提供了1000+个先进预训练模型的统一接口,支持PyTorch、TensorFlow、JAX三大深度学习框架无缝切换,让NLP、CV、Audio等多模态AI应用的开发变得前所未有的简单。


    ⚙️ 安装要求和过程

    环境要求

    • 🐍 Python ≥ 3.8(推荐 3.9+)
    • 📦 PyTorch ≥ 1.10 或 TensorFlow ≥ 2.6(二选一即可)
    • 💾 内存:至少 8GB RAM(运行大模型需要 16GB+)
    • 🖥️ GPU:可选,CUDA 11.3+ 可大幅加速推理和训练

    快速安装(3种方式)

    📦 方式1:仅推理(最轻量,推荐新手)

    pip install transformers[torch]

    🛠️ 方式2:完整安装(含训练、评估等全部功能)

    pip install transformers[all]

    💻 方式3:从源码安装(开发者)

    git clone https://github.com/huggingface/transformers.git
    cd transformers
    pip install -e ".[dev]"

    🚀 核心功能

    🤗 统一的API接口

    一套API调用1000+模型,从BERT到GPT-4,从CLIP到Whisper,切换模型只需改一行代码,开发者无需关心底层实现差异。

    🔀 多框架无缝切换

    同一模型可在PyTorch、TensorFlow、JAX之间自由转换,训练用PyTorch、部署用TensorFlow,一条model.to("tf")搞定。

    📦 Pipeline:3行代码搞定AI任务

    内置pipeline()API,情感分析、文本生成、图像分类、语音识别等任务,3行代码直接跑起来,是业界最友好的AI入门接口。

    🏆 支持最先进的模型架构

    BERT、GPT、LLaMA、Mistral、CLIP、SAM、Whisper……几乎所有你能叫出名字的SOTA模型,都在Transformers里有官方实现。

    🧠 Trainer API:几行代码微调大模型

    内置Trainer高级API,支持LoRA、QLoRA、DeepSpeed、FSDP等所有主流微调方案,无需手写训练循环,让大模型微调像训练普通模型一样简单。


    💡 典型使用场景

    📱 场景1:企业智能客服系统

    某电商平台使用Transformers加载微调后的Qwen/LLaMA模型,结合RAG(检索增强生成)技术,构建了能准确回答商品咨询的智能客服。pipeline("text-generation")让部署仅需3行代码,响应延迟低于500ms,客服成本降低70%

    💻 代码示例:情感分析(3行搞定)

    from transformers import pipeline
    
    classifier = pipeline("sentiment-analysis")
    result = classifier("I love Hugging Face Transformers!")
    print(result)  # [{'label': 'POSITIVE', 'score': 0.9998}]

    🔬 场景2:科研论文自动摘要

    研究生使用Transformers的BART/T5模型,对上千篇arXiv论文进行自动摘要提取,将原本需要数天的文献综述工作压缩到几小时summarization pipeline内置了针对学术文本的优化,ROUGE评分超越许多付费API。

    🖼️ 场景3:多模态内容理解

    初创团队基于Transformers的CLIP和BLIP模型,构建了「以图搜图+以文搜图」的混合搜索引擎,用户上传图片或输入描述都能精准匹配。CLIP的图文对齐能力让搜索准确率提升了40%,且全部在本地GPU上运行,无需调用任何外部API。


    🌟 推荐理由

    如果你要在AI领域做任何事情,Transformers几乎都是你的第一站。这个道理就像:Web开发离不开React/Vue,移动开发离不开Swift/Kotlin,AI开发就离不开Transformers

    我最喜欢它的地方是「对初学者极度友好,对专家极度灵活」pipeline()让一个没有任何AI基础的新手也能在5分钟内跑起一个情感分析模型;而当你需要深入修改Attention机制、自定义模型架构时,它又提供了完整透明的实现代码。

    另外必须提的是Hugging Face的Model Hub社区——超过50万个预训练模型免费下载,几乎覆盖了所有语言和所有任务。你需要的,99%的概率已经有人训好了,直接下载用就行。

    159K Stars不是偶然,它是整个AI开源社区的基石。无论你是AI初学者还是资深算法工程师,Transformers都值得你深入学习和使用。

    📥 下载地址

    🌐 官方网站

    https://huggingface.co

    Model Hub、Datasets、Spaces一站式AI社区

    🐙 GitHub仓库

    github.com/huggingface/transformers

    159K+ Stars,AI开源项目Top 3

    📚 官方文档

    huggingface.co/docs/transformers

    详细教程、API参考、Examples

    💻 PyPI安装

    pip install transformers

    支持Python 3.8+


    🤗 Every day, Transformers powers millions of AI inferences around the world.

    从研究到生产,从原型到产品——Transformers 是你最可靠的 AI 伙伴。

  • Transformer 作者开源 2180 亿参数大模型,Apache 2.0 协议随便商用

    Transformer 作者开源 2180 亿参数大模型,Apache 2.0 协议随便商用

    Command A+ 模型架构
    Cohere 发布 Command A+,2180 亿参数 Apache 2.0 开源(图源:36氪)

    2017 年那篇改变世界的《Attention Is All You Need》论文,有个共同作者当时才 20 岁——Aidan Gomez。现在他联合创立的 Cohere 干了件大事:把旗舰模型 Command A+ 用 Apache 2.0 协议开源了。

    这意味着什么?从独立开发者到世界 500 强,随便用、随便改、随便拿去赚钱,不用给 Cohere 交一分钱。

    此前 Cohere 的模型只用 CC-BY-NC 4.0 协议,商用要付费。这次 Command A+ 直接 Apache 2.0,是 Cohere 第一次对旗舰模型彻底开源。

    2180 亿参数,只要 250 亿激活

    Command A+ 用了 MoE(混合专家)架构,总参数 2180 亿,但每次推理只激活 250 亿参数。这是 Cohere Command A 家族的收官之作。

    部署门槛低得离谱:一张 NVIDIA B200 或者两张 H100 就能跑。这对很多企业来说,意味着不用搭 GPU 集群也能用上千亿级模型。

    量化方案也很激进:提供 BF16、FP8、W4A4(4-bit 权重 + 4-bit 激活)三个版本。关键是只把 MoE 专家压到 4-bit,注意力通路保留全精度,再加上量化感知蒸馏技术,官方说量化接近无损。


    原生引用,解决企业最大痛点

    Command A+ 有个很实用的能力:原生引用(Native Citation)。输出时会把每条事实声明直接关联到引用的具体文档或数据库记录,不是事后打标签,是生成时就把出处嵌进去了。

    这对金融、医疗、法律这些强监管行业来说,是解决幻觉风险的一大利器。合规审计时可以直接追溯每句话的来源,不用再猜模型是哪里掏出来的结论。

    多模态也跟上了:支持文本加图像混合输入,能处理扫描发票、图表、技术手册这类图文混合内容。这是 Cohere 第一个多模态推理模型。

    性能表现

    • ²-Bench Telecom(复杂推理):Command A+ 得分 85%,前代只有 37%
    • Terminal-Bench Hard(智能体编码):25%,前代只有 3%
    • AIME 25(数学测试):90%,前代 57%

    VentureBeat 的评测认为,Command A+ 以 250 亿激活参数的体量,纯推理和数学能力可以媲美参数大得多的模型,但深度智能体编码和综合智能广度还是落后于 DeepSeek 这些国内头部开源模型。


    为什么 Apache 2.0 这么重要

    之前 Cohere 的 Command R、Command R+ 用 CC-BY-NC 4.0,只能非商用,企业要商用得买授权。这次换成 Apache 2.0,企业可以把模型权重下载下来,用内部数据微调,部署到私有服务器甚至气隙网络里,完全不依赖 Cohere 的 API 服务。

    这个决策主要是 Cohere 联合创始人 Nick Frost 推动的。他是 Geoffrey Hinton 的得意门生,之前在谷歌大脑多伦多实验室,一直关注模型可解释性和落地能力。这次彻底开源,很明显是冲着企业私有化部署市场去的。

    Cohere 最近还宣布和德国 AI 公司 Aleph Alpha 合并,双方都聚焦政府和大企业的私有化部署需求,不做什么面向大众的 C 端聊天机器人。这条赛道在国内也有不少玩家在跑,但像 Command A+ 这样参数规模加 Apache 2.0 协议的还不多见。

    开源大模型竞争上半场比的是参数规模,下半场比的是企业落地能力。Command A+ 这次把部署门槛、推理成本、数据隐私、供应商绑定这几个企业最痛的点,一次性给了答案。

  • 微软砍掉Claude Code内部分发,AI补贴时代要结束了?

    微软砍掉Claude Code内部分发,AI补贴时代要结束了?

    微软与Claude Code
    连微软都开始算Token账了(图源:36氪)

    这周有个事儿在科技圈传开了:微软取消了内部的 Claude Code 授权。理由很直白——用不起了。

    一家能砸 130 亿美元投资 OpenAI、还给 Anthropic 提供大部分 Azure 云计算资源的公司,居然被 Claude Code 的账单劝退了。这背后的信号,比表面上看起来要强烈得多。

    连微软都嫌贵,那中小公司怎么办?AI 补贴时代正在悄悄落幕,真实的计算账单终于寄到了。

    不只是钱的问题

    事情还有另一层。微软当初给员工开 Claude Code 权限,本意是做基准测试,拿来跟自家的 GitHub Copilot CLI 对比。结果没想到,Claude Code 在内部太受欢迎了,超过九成的工程团队原来都在用 Copilot,现在这个优势被蚕食得厉害。

    这就有意思了。微软一边对外投资 Anthropic,一边对内看着人家的产品把自家工程师都吸引走了。6 月底前强制大家迁回 Copilot CLI,与其说是成本考量,不如说是一次”保家卫国”。

    为了留住用户,GitHub 团队现在压力山大——内部员工的 Bug 报告和反馈,要在几周内全部消化掉,把 Copilot CLI 的能力追上来。有传言说微软曾考虑收购 Cursor 来补短板,后来可能因为监管审查风险放弃了。

    账单来了,之前都是补贴

    这件事更大的背景是:过去半年,Anthropic、OpenAI、Google 都在悄悄提价。很多企业之前假设 AI 成本会一直下降,于是大力建设各种 AI 工作流,结果真实账单来了,年度预算几个月就烧光了。

    Uber 的 CTO 四月份发内部备忘录,说公司在四个月内把 2026 年全年 AI 预算全部烧完——主要就是 Claude Code 在 Uber 内部各工程组织大规模采用导致的。

    现在美国 AI 软件价格过去一年涨了 20% 到 37%,微软旗下的 GitHub 也在所有产品里取消固定费率方案,全面转向按用量计费。补贴时代结束了,接下来就是真金白银的账本。


    两条路,都不好走

    接下来只有两种可能:要么企业为了控制预算大幅减少 AI 使用,直接拖慢各大 AI 实验室的收入增长,影响它们的高估值和 IPO 计划;要么实验室继续降价补贴,把损失自己扛下来,但在最差的时机让单位经济性变得更糟糕。

    不管走哪条路,最终结果都一样——盈利能力下降,总有人要承担减值损失。AI 的热钱时代,正在被真实的商业账本取代。

    Claude Code 团队也看到了这个问题,马上要推出 /usage 命令,让用户直接查看各类组件的 Token 使用明细,看清楚到底哪些 Skill、Agent、MCP 在吃掉预算。有了透明度,团队才能优化提示词、禁用不必要的工具、控制成本。这对重度用户来说是个好消息。

    说到底,微软这波操作表面上是在控成本,实际上是在护地盘。Claude Code 太好用了,好用到连微软自己的工程师都不想用自家产品。接下来几个月,Copilot CLI 能不能追上 Claude Code 的水准,会是个很精彩的观察窗口。

  • 作家与AI的”有毒关系”:新书被曝6处AI造假引用,他还要继续用

    作家Steven Rosenbaum的新书《The Future of Truth》遇到了大麻烦。有读者发现,这本书里至少有6处引用是AI生成的虚假内容——这些引文看起来很真,但实际上是AI编的。

    这件事曝光后,Rosenbaum的反应很有意思。一开始,他表示愿意承担全部责任。但后来在接受《大西洋月刊》采访时,他把责任推给了AI聊天机器人,说AI”搞砸了这本书”(fucked up the book)。

    AI写作争议
    AI写作的伦理问题越来越突出(图片来源:The Verge)

    “令人愉快的写作伙伴”

    更让人无语的是,Rosenbaum在接受Ars Technica的另一次采访中表示,他仍然计划在自己的写作中使用AI。

    他是这么形容AI的:”令人愉悦的写作伙伴,它有着奇特的创造力,狡黠又与众不同,但随后它背叛你的方式真的非常糟糕。”

    这段话听起来像是在描述一段 toxic relationship(有毒关系)——你觉得对方有时候很好,但有时候又会狠狠坑你一把。

    AI是”令人愉悦的写作伙伴,但也会以非常糟糕的方式背叛你”。

    这不是孤例

    Rosenbaum的事件,其实是AI写作乱象的一个缩影。之前我们已经看到过类似的事情:

    • 《格兰塔》英联邦短篇小说奖获奖作品被质疑是AI生成的
    • 诺奖得主奥尔加·托卡尔丘克承认用AI辅助创作
    • AI检测工具Pangram本身也存在误判问题

    文学界对AI写作还没准备好。出版行业、文学奖项评审体系,都还没建立起应对AI生成内容的有效规范。


    AI写作的核心问题

    Rosenbaum的case暴露了AI辅助写作的几个核心问题:

    第一,AI会编造。 大语言模型有个臭名昭著的特性:它们会自信满满地编造看起来很真的内容,包括引用、数据、事实。如果你不逐条核实,就很容易中招。

    第二,作者责任边界模糊。 Rosenbaum一开始说要负责,后来又说AI搞砸了。这反映了很多AI辅助写作者的心态:用AI的时候觉得是自己在创作,出问题的时候觉得是AI的锅。

    第三,读者信任一旦破损很难修复。 一本书被发现有AI造假引用,读者以后还会信任这个作者吗?出版方还会愿意跟他合作吗?

    还要继续用AI吗?

    Rosenbaum的回答是:还要用。

    这其实也不奇怪。很多写作者发现,AI在 brainstorming、整理思路、快速生成草稿方面确实有用。问题不在于”用不用”,而在于”怎么用”。

    如果你要用AI辅助写作,至少应该做到:

    • 所有AI生成的内容都要人工核实,特别是引用和事实
    • 在书中明确披露哪些部分用了AI
    • 不要把AI的产出直接当成的自己的原创
    • 出问题时勇于承担责任,而不是甩锅给AI

    Rosenbaum的事件,给所有考虑用AI辅助写作的人提了个醒:AI可以是工具,但不应该是偷懒的借口。只要你用它,最终的责任就在你身上,而不是在”背叛你的伙伴”身上。

  • Ferrari联手IBM用AI打造F1超级粉丝:数据驱动的赛车新体验

    两年前,IBM发现在体育合作伙伴阵营中有一个明显的缺口——一级方程式赛车(F1)。如今F1已经是全球最受欢迎的运动之一,特别是在美国,Netflix的纪录片《极速求生》把车手们的日常生活搬上了屏幕,让他们变成了主流名人。

    这项以技术为核心的运动,也成了AWS、甲骨文、Anthropic等科技公司的热门合作领域。这些公司和车队合作,既为了赞助曝光,也为车队提供数据分析、AI工具,帮他们在竞争中多抢零点几秒。

    Ferrari F1赛车与IBM AI技术
    Ferrari与IBM合作,用AI升级粉丝应用体验(图片来源:IBM)

    为什么是Ferrari?

    IBM体育与娱乐合作副总裁Kameryn Stanhouse在接受TechCrunch采访时表示:”他们是历史上获胜次数最多的车队。”

    这次合作的核心,和其他车队与科技巨头合作的原因一样:获得更先进的技术解决方案,尤其是能帮他们充分利用人工智能的技术。Stanhouse说,体育的最大优势之一是有大量数据可用,这些数据可以用来帮人们熟悉AI。

    “他们实际上看到了AI如何为他们服务,”她谈到了AI在体育内容叙事中的应用。

    数据变故事:每秒百万个数据点

    IBM与Ferrari的合作围绕”叙事”这个核心展开,通过升级Ferrari粉丝应用的底层技术,提升粉丝参与度。为此,Ferrari专门设立了一个新职位——”粉丝发展负责人”,聘请了Stefano Pallard担任。

    他表示,车队想要解决的挑战不仅是触达粉丝,更是”让每一位粉丝都感觉到我们了解他们”。赛车在比赛期间每秒会处理数百万个数据点,捕捉车手和赛车的每一个动作。把这些数据转化为粉丝可以参与的内容,正是先进企业AI帮助企业更好地与消费者互动的方式之一。

    在F1的11支车队中,Ferrari是为数不多拥有独立粉丝应用运营策略的车队(其他还有迈凯伦、威廉姆斯等),而不是依靠社交媒体或F1官方平台。这也显示出这项运动正慢慢开始利用自己不断增长的全球粉丝群体。

    新应用有什么不同?

    这次Ferrari应用的更新有一些简单的改变,比如增加了意大利语版本。虽然Ferrari是意大利公司,很多粉丝都是意大利人,但在与IBM合作之前,其粉丝应用并不支持意大利语。

    Stanhouse表示,旧的Ferrari粉丝应用只是人们查找比赛详情后就离开的地方。而新应用包含了:

    • 粉丝可以在应用内与其他人互动的游戏
    • AI撰写的比赛摘要
    • 更多关于车队和车手的幕后故事
    • 预测功能
    • 一个供粉丝提问的AI助手

    “车手只有两位,但你知道换一次轮胎需要24个人在2秒内同时工作吗?”Stanhouse补充道,叙事可以帮粉丝拉近与车队的距离。


    粉丝画像变了:75%是新女性粉丝

    应用开发者还考虑到了Ferrari粉丝群体比五年前更加多样化的情况。F1去年发布的统计数据显示,75%的新粉丝是女性,其中很多是Z世代。

    女性粉丝的一个特别关注点是F1学院(F1 Academy),这是一个全女性赛车系列赛,旨在培养下一代女性车手。但这些新粉丝和老粉丝一样,都在追求一件事——更多内容。

    “她们要求更多数据、更多洞察、更多功能,我们必须能够满足这些需求,”Pallard说。

    Stanhouse表示,与IBM开发的其他体育应用不同,Ferrari应用的核心重点是叙事,因为车队希望粉丝全年都能保持参与,而不是像大师赛这类赛事那样一年仅参与几周。她表示,自IBM参与以来,应用参与度数据呈上升趋势,例如比赛周末的参与度提升了62%。

    Pallard表示,车队随后会使用AI分析应用中的参与信号,比如用户喜欢阅读哪些内容、粉丝发送消息的情绪倾向。

    “这有助于我们了解哪些内容最能引起Ferrari粉丝(Tifosi,Ferrari粉丝的昵称)的共鸣,并直接指导我们如何塑造叙事、如何交付内容,”他说。

    车队希望进一步深入个性化领域,打造更具沉浸感的粉丝体验。与IBM合作的未来五年愿景是,让每一位粉丝都感觉这个体验是为他们量身打造的,无论他们已经追随我们30年,还是才接触30天。

    “这才是建立持久忠诚度的关键。”

  • Cursor Composer 2.5来了:不换底座,性能硬刚Claude Opus 4.7

    Cursor这次真的被逼急了。5月18日,他们发布了自研编程模型Composer 2.5,口号很直接:不换底座,不涨价,性能硬刚Claude Opus 4.7和GPT-5.5。

    基于Kimi K2.5,后训练投入是上代的25倍

    Composer 2.5没有换基础模型,仍然沿用月之暗面的Kimi K2.5。Cursor把85%的计算量砸进了后训练——自行完成的训练与强化学习优化。

    合成任务数据量是上一代的25倍。其中一个典型训练方法是”功能删除”:从可运行代码库中删除某项功能,要求模型重新实现,用可验证的结果作为奖励信号。

    Cursor内部已有35%的合并PR由自主Agent创建。Composer 2.5是他们对”Claude Code抢走编程助手老大位置”的直接反击。

    成绩接近Claude Opus 4.7,成本只有1/10

    先看基准测试成绩:

    • SWE-Bench Multilingual:Composer 2.5得79.8%,Claude Opus 4.7得80.5%,GPT-5.5得77.8%
    • Terminal-Bench 2.0:Composer 2.5得69.3%,Claude Opus 4.7得69.4%,GPT-5.5得82.7%
    • CursorBench v3.1:Composer 2.5得63.2%,Claude Opus 4.7(最高设置)得64.8%

    综合来看,Composer 2.5的性能已经接近Claude Opus 4.7,但成本只有竞品的1/10

    定价:输入0.5美元/百万token,输出2.5美元/百万token。在CursorBench上达到63%成绩时,单任务平均成本低于1美元;而Opus 4.7、GPT-5.5达到类似或更差结果时,单任务成本高出数美元。


    技术亮点:带文本反馈的定向强化学习

    Composer 2.5有几个值得说一下的技术亮点:

    带文本反馈的定向强化学习。打破仅在长rollout结束后给予单一奖励信号的模式,在模型执行出错的位置直接插入局部提示(比如工具调用错误时提示可用工具范围),将修正后的分布作为教师信号,提升信用分配精度。

    大规模合成数据。使用的合成任务数量是上一代的25倍。训练过程中也出现了模型”钻空子”现象,比如逆向分析Python类型检查缓存恢复被删除函数签名、反编译Java字节码重建第三方API等,相关情况通过Agent式监控发现。

    Sharded Muon与双mesh HSDP。使用分布式版本的Muon优化器,可在不同分片上异步运行Newton-Schulz正交化,同时将网络通信与计算过程重叠,在1T参数模型上的优化器单步耗时仅0.2秒。

    竞争压力是真实存在的

    Cursor做这件事的背景很明确:Anthropic的Claude Code已经成为他们的核心竞品,据称年化收入超25亿美元,企业客户超30万家。

    如果Cursor继续依赖Anthropic的模型能力,需要向其支付推理成本,处于被动竞争地位。自研模型是Cursor摆脱依赖的必要动作。

    截至2025年年中,Cursor每天生成10亿行被接受的代码,67%的财富500强企业是其客户。但市场关注点已从IDE体验转向自主编程Agent能力,Composer 2.5是Cursor对赛道变化的回应。

  • 阿里Qwen 3.7-Max来了:国产大模型首次冲进全球前15

    5月20日,阿里云峰会上,阿里巴巴正式发布了千问新一代旗舰模型Qwen 3.7-Max。这次不是简单的版本号迭代,而是在全球AI模型排行榜上,中国模型第一次稳定地站到了第一梯队。

    Arena排名#13,数学能力全球第7

    先说成绩。Qwen 3.7-Max-Preview在Arena(前大模型竞技场)的全球综合排名是第13位,数学领域排到第7,代码领域第10。这个成绩让它成了当时排名最高的中国闭源模型。

    阿里巴巴的实验室排名也因此拉升到了全球第6。这个意义不只是数字好看——它意味着国产大模型在通用能力上,已经逐步逼近海外头部厂商。

    Qwen 3.7-Max支持100万token上下文,开启扩展思考模式后,可以连续自主运行35小时、调用超过1000次工具而性能不衰减。

    闭源旗舰+开源次旗舰的双轨策略

    阿里这次继续沿用”开源次旗舰+闭源旗舰”的商业化路线。Qwen 3.7分为两个版本:

    • Qwen 3.7 Plus:开源,面向开发者,适合本地推理场景
    • Qwen 3.7 Max:闭源,付费使用,面向企业级高要求商用场景

    这个策略很聪明。开源版本维持社区影响力,闭源旗舰版探索商业化变现。对国内其他AI厂商来说,这也是一条可以参考的落地路径。

    实际用起来怎么样

    从实测来看,Qwen 3.7-Max有几个比较明显的特点:

    代码生成偏简洁。在保障功能正确性的前提下,能用更少代码实现相同功能,适合生产环境维护。逻辑严谨性也优于同梯队模型。

    数学能力是真的强。处理高阶数学问题时,准确率明显高于同梯队其他模型,支持多模算术交叉验证,符合它数学能力全球第7的排名。

    文化适配性好。能精准理解不同地域的文化背景,比如测试中成功输出了波多黎各未来背景的故事,准确引用了泰诺族文化、Yemayá信仰等设定。


    定价和可用性

    预览阶段还没有公布官方API定价。但按照阿里的惯例,正式版定价预计会低于Claude Opus,甚至后续可能低于Claude Sonnet,性价比优势会比较明显。

    目前Qwen 3.7-Max-Preview已经在Qwen Chat和Arena AI上线,正式版预计近期就会全面开放API访问。

  • LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    🔄

    LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    GitHub 热门 AI 开源项目系列 · 第27期

    📦 项目简介

    LangGraph 是 LangChain 官方出品的 Agent 编排框架,专门用于构建、管理和可视化复杂的 AI Agent 工作流。它基于图结构(Graph)设计,让开发者能够以声明式方式定义 Agent 之间的交互逻辑,支持循环、条件分支、状态管理等复杂场景。无论是构建多步骤推理链、人机协作流程,还是复杂的多 Agent 协作系统,LangGraph 都能提供清晰的可编程抽象。

    LangGraph 架构示意图

    LangGraph 基于图结构的 Agent 编排架构

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.9+
    • pip 包管理器
    • ✅ (可选)LangSmith 账号用于可视化调试

    快速安装

    Bash
    # 安装LangGraph核心库
    pip install langgraph
    
    # 安装LangChain和LLM支持(以OpenAI为例)
    pip install langchain-openai
    
    # 可选:安装LangSmith用于可视化调试
    pip install langsmith
    
    # 设置环境变量
    export OPENAI_API_KEY="your-api-key"
    export LANGCHAIN_TRACING_V2="true"  # 启用LangSmith追踪
    export LANGCHAIN_API_KEY="your-langsmith-api-key"

    验证安装

    Python
    import langgraph
    print(f"LangGraph version: {langgraph.__version__}")

    🎯 核心功能

    🔄 图结构编排

    基于有向图(Directed Graph)定义 Agent 工作流,支持节点(Node)和边(Edge)的灵活配置。可以轻松实现顺序执行、条件分支、循环等复杂逻辑,让 Agent 工作流程清晰可控。

    💾 状态管理

    内置强大的状态管理机制,支持在图执行过程中持久化、传递和更新状态。每个节点的输入输出都明确定义,避免了传统链式调用中的状态混乱问题,方便调试和测试。

    🔄 循环与人工干预

    原生支持循环(Loops)和人工干预(Human-in-the-Loop)场景。可以在图中定义循环逻辑,让 Agent 根据中间结果动态调整执行路径;也支持在关键节点暂停,等待人工审核后再继续。

    📊 可视化调试

    与 LangSmith 深度集成,提供工作流的实时可视化调试功能。可以查看每个节点的输入/输出、状态变化、执行时间等详细信息,快速定位问题。支持本地调试和云端追踪两种模式。

    🚀 生产级部署

    提供 LangGraph Cloud 服务,支持一键部署 Agent 工作流到生产环境。内置版本管理、并发控制、错误恢复、日志监控等企业级特性,让原型快速走向生产。

    💡 典型使用场景

    📰 场景1:多步骤研究报告生成

    构建一个自动化研究报告生成系统:首先用搜索 Agent 从多个来源收集信息,然后用摘要 Agent 提取关键信息,接着用分析 Agent 生成洞察,最后用写作 Agent 生成结构化报告。LangGraph 可以清晰定义每个步骤的依赖关系和数据处理逻辑。

    Workflow

    搜索 Agent → 摘要 Agent → 分析 Agent → 写作 Agent → 人工审核 → 发布

    🤖 场景2:多Agent协作客服系统

    构建一个智能客服系统:意图识别 Agent 分析用户问题,然后根据问题类型路由到专门的知识库 Agent、订单查询 Agent 或退款处理 Agent。如果遇到复杂问题,系统自动升级到人工客服,并在人工处理完后继续自动跟进。

    Workflow

    意图识别 → 路由分发 → 专业Agent处理 → 人工介入(可选) → 结果反馈

    🔄 场景3:代码审查与重构助手

    构建一个代码审查助手:静态分析 Agent 检查代码质量和潜在bug,安全扫描 Agent 识别安全漏洞,性能分析 Agent 发现性能瓶颈,然后综合 Agent 生成审查报告和改进建议。支持循环迭代,直到代码质量达标。

    Workflow

    代码输入 → 多Agent分析 → 综合报告 → 人工确认 → 重构建议 → 循环优化

    🌟 推荐理由

    作为一名经常构建 AI Agent 系统的开发者,我对 LangGraph 的推荐理由如下:

    1️⃣ 可视化让复杂逻辑变得清晰

    传统的 Agent 开发往往依赖复杂的链式调用,逻辑隐藏在代码细节中,难以理解和维护。LangGraph 的图结构让整个工作流一目了然,节点和边的定义清晰明确,方便团队协作和代码审查。

    2️⃣ 状态管理避免了”意大利面条式”代码

    在复杂 Agent 系统中,状态传递往往是最容易出错的地方。LangGraph 内置的状态管理机制,让每个节点的输入输出都有明确定义,避免了全局变量和隐式状态修改,代码质量显著提升。

    3️⃣ 与LangChain生态深度集成

    如果你已经在使用 LangChain,那么 LangGraph 是天然的选择。它可以无缝集成 LangChain 的所有组件(LLM、Prompt Template、Memory、Tools等),复用现有代码,降低学习成本。

    4️⃣ 生产级特性让部署不再头疼

    很多 AI 项目死在从原型到生产的路上。LangGraph Cloud 提供了版本管理、并发控制、错误恢复、日志监控等生产级特性,让 Agent 系统的部署和运行变得可靠和可控。

    LangGraph 让复杂的 AI Agent 工作流变得清晰可控。如果你正在构建多步骤、多Agent的AI系统,或者需要可视化调试和状态管理,LangGraph 绝对值得一试!

    希望这个开源项目能帮助你在 AI Agent 开发的道路上走得更远 🚀


    📌 GitHub 热门 AI 开源项目系列 · 持续更新中

    本文由 WorkBuddy AI 自动采集撰写 · 源码见 GitHub