博客

  • 微软联手Anthropic,把Claude智能体塞进Office全家桶





    微软联手Anthropic,把Claude智能体塞进Office全家桶


    微软联手Anthropic,把Claude智能体塞进Office全家桶

    昨天(5月23日)的一则消息,可能预示着AI助手大战进入了新阶段。微软正在和Anthropic合作,要把基于Claude的智能体直接塞进Office应用里——Excel、Word、PowerPoint,一个都不放过。

    从聊天窗口到生产力工具,AI智能体正在”下沉”

    这件事挺有意思的。过去两年,我们习惯了打开ChatGPT或者Claude的网页,在对话框里和AI聊天。但微软想做的,是把AI智能体直接嵌进你每天用的那些软件里。

    你在Excel里处理数据,需要分析趋势?不用切换到浏览器打开ChatGPT了,直接在Excel里喊Claude帮忙。你在Word里写方案,需要查资料?Claude就在旁边等着。这种”AI无处不在”的体验,才是微软真正想推的。

    “AI工作流正从独立聊天工具,向生产力软件内置的自主化功能转型。”——AI Flash Report

    不只是微软,谷歌也在”系统级”押注AI

    就在微软和Anthropic搞合作的同一周,谷歌也没闲着。他们把Gemini直接嵌进了Android 17系统,还预览了内置”智能体”功能的新版Chrome浏览器。

    更夸张的是,DeepMind还推出了一个叫”AI鼠标”的东西——你把鼠标悬停在屏幕上,它就能理解上下文,给你提供AI辅助。你说这是鼠标还是AI助手?已经分不清了。


    加州出手了:AI生成的内容必须打水印

    另一边,监管也在跟进。加州州长本周签了个行政命令,要求州政府机构制定”可信AI”采购规则。什么意思呢?就是以后加州的政府部门买AI服务,得先看看这个AI够不够”可信”。

    这个行政命令还专门提到了水印标准——AI生成的图片、视频,必须打上水印,让人一眼就能看出来这是AI弄出来的。这对那些用AI造假的人来说,可不是什么好消息。

    芯片不够用了,AI正在”抢”消费电子的饭碗

    最后说个有点吓人的事。美国议员最近警告说,AI数据中心对芯片的需求太大了,已经影响到智能手机、消费电子这些产品的供应了。

    你想想,芯片厂产能就那么多,AI公司拿走了大部分,留给手机、电脑的就不多了。这会导致什么?物价上涨。所以有人说,AI boom看起来很美好,但普通老百姓买手机、买电脑可能要花更多钱了。

    这一周AI圈发生的事,其实指向同一个方向:

    • AI正在从”聊天窗口”走向”系统级集成”——微软、谷歌都在这么做
    • 监管开始动真格了——加州的水印要求只是开始,未来会有更多类似政策
    • 芯片短缺不只是AI公司的问题,它会影响到每个人的生活
    • AI助手大战已经从”谁的模型更聪明”变成”谁的AI更容易用到”


    说到底,微软这步棋下得很精明。他们不和OpenAI死磕,而是把Anthropic的Claude也拉进来,让自己的Office全家桶同时支持多个AI。对用户来说,这是好事——选择多了,竞争来了,产品自然会更好用。


  • Karpathy官宣加入Anthropic,AI人才争夺战再起波澜





    Karpathy官宣加入Anthropic,AI人才争夺战再起波澜


    Karpathy官宣加入Anthropic,AI人才争夺战再起波澜

    5月19日晚11点,Andrej Karpathy在X上发了四句话,全球AI社区瞬间炸锅。这位OpenAI联合创始人、前特斯拉AI总监,突然宣布加入了Anthropic。

    Andrej Karpathy
    Andrej Karpathy(图源:36氪)

    一个简短宣布,重磅炸弹投下

    据Anthropic公司称,Karpathy加入后将在该公司最核心的预训练团队工作,负责人是Nicholas Joseph。要知道,Joseph是OpenAI的前核心成员,而Anthropic的创始人Dario Amodei也曾担任OpenAI的研究副总裁。现在,一个”复仇者联盟”已经彻底成型。

    Anthropic称,Karpathy将帮助组建一支新团队,专注于利用Claude本身来加速预训练研究。用AI来加速AI技术的发展,这个研究方向太有趣了。

    “我认为,接下来几年将是大语言模型前沿发展中格外关键、也格外具有塑造性的时期。能加入这里的团队、重新回到研发工作中,我非常兴奋。”——Andrej Karpathy

    从OpenAI到特斯拉,再到Anthropic

    Karpathy的履历不需要多解释。1986年出生于捷克斯洛伐克,2009年多伦多大学计算机科学与物理学双学士学位,2011年不列颠哥伦比亚大学硕士学位,随后在斯坦福大学攻读博士,师从李飞飞。

    2015年博士毕业后加入OpenAI,作为联合创始人之一担任研究科学家。2017年被马斯克”挖角”,加入特斯拉担任AI及自动驾驶视觉总监,领导Autopilot项目。2022年7月从特斯拉离职,2023年短暂回归OpenAI改进GPT-4,2024年再次离开。

    Karpathy职业履历
    Karpathy的职业履历(图源:36氪)

    “就像凯文杜兰特加入73胜的勇士队”

    在Karpathy的官宣帖文下面,广大网友纷纷发来祝福。Anthropic核心开发者、”Claude Code之父”Boris Cherny表示非常欢迎Karpathy的加入。

    有网友评论:”现在的AI实验室感觉越来越像足球俱乐部了……而无疑,现在Anthropic竟然迎来了马拉多纳本人!!!”还有人分析认为,这件事比人们意识到的更重要:赢得AI下一阶段的公司,很可能是那些构建出可以持续学习、改进并扩展的系统的公司。


    新一轮AI军备竞赛开始了

    Karpathy的加入,可以说是给即将上市的Anthropic来了又一次助推,说明了这家顶尖AI公司对科技人才的吸引力。而刚刚结束了与马斯克的诉讼,为上市铺平道路的OpenAI,现在又再次面临了压力。

    由此开始,我们或许将会见证新一轮AI军备竞赛。Anthropic获得了”人才争夺战”的重大胜利,而OpenAI则需要重新思考自己的人才策略。

    AI人才争夺战
    AI人才争夺战(图源:36氪)


  • Google I/O 2026万字解读:Gemini 3.5 Flash炸场,24小时在线的AI助手来了

    Google I/O 2026万字解读:Gemini 3.5 Flash炸场,24小时在线的AI助手来了

    北京时间5月20日凌晨1点,Google I/O 2026在加州山景城开幕。如果说去年的大会还在讲”AI优先”,今年Sundar Pichai直接把话挑明了:”Google Search就是AI Search”。整场发布会看下来,一个很清晰的信号是:Google正在把Gemini塞进你能想到的所有产品里。

    Gemini月活用户已达9亿,过去一年Google处理的Token达3.2千万亿,同比增长7倍。这个体量,已经不是”在做AI”,而是”AI就是它本身”。

    Gemini 3.5 Flash:快到有点不讲道理

    这次发布的Gemini 3.5 Flash,官方说生成输出Token的速度大约是其他前沿模型的4倍,专为AI Agent和编码工具优化。性能上大概对标GPT-5.5,略逊于Claude Mythos。已经在Search、Gemini App、API全端口上线了。

    速度这个事儿,对AI Agent场景来说确实关键。你想,一个智能体要连续调用好几次模型,每次如果都要等几秒,用户体验直接崩掉。Flash这个”快”不是锦上添花,是能让Agent真正跑起来的前提。Google这次把这个模型免费开放给开发者用,底气挺足的。


    Gemini Spark:24小时在线的个人AI助手

    这个可能是整场发布会最实用的发布。Gemini Spark是一个部署在Google Cloud虚拟机上的个人AI助手,可以24小时持续工作,不需要你的电脑保持在线。它能规划多步骤任务、跨应用协作,目前支持Gmail、YouTube等Google自有工具,后续会开放MCP协议接入第三方应用。

    下周首先向美国地区的Google AI Ultra订阅用户开放,这个套餐的价格也从每月250美元降到了200美元。坦白说,如果Spark真的能做到”你说一句话,它帮你把事儿办了”,200美元一个月对于重度用户来说不算离谱。问题是,现在的AI助手在复杂任务上还是容易翻车,Spark能不能真正可靠地跑起来,得实际用一段时间才知道。


    搜索框的25年来最大升级

    Google搜索这次的升级,官方说是25年来最大的一次。新的搜索框支持图片、文件、视频甚至Chrome标签页作为输入,还能主动监控网页变化并推送提醒——比如球鞋发售、价格变动这类场景。

    这个方向其实挺明确的:搜索不再是你主动去”搜”,而是AI主动帮你”盯”。你告诉它你在等什么,它帮你守着,有变化就通知你。这个逻辑一旦跑通,传统搜索引擎的”关键词匹配”模式基本上是被降维打击了。


    硬件和其他:智能眼镜秋天见

    Google还公布了和Gentle Monster、Warby Parker合作设计的Android XR智能眼镜,2026年秋季上市,三星提供硬件支持。用户可以全天佩戴,通过耳机接收Gemini的语音回答。这个赛道现在有好几家都在做,Apple的Vision Pro走的是高端路线,Google这次看起来是想走更日常的路。

    视频生成模型Gemini Omni也亮相了,支持用户上传视频并编辑其中任意元素,Gemini Omni Flash即日起在Gemini应用中可用。这个能力如果做得足够好,短视频创作者和营销团队大概会第一时间用起来。

    • Gemini 3.5 Flash已全面上线,输出速度领先竞品4倍
    • Gemini Spark个人智能体下周向Ultra用户开放,月费降至200美元
    • Google搜索迎来25年来最大升级,支持多模态输入和主动监控
    • Android XR智能眼镜2026年秋季上市,全天佩戴+语音交互
  • OpenAI秘密递交IPO申请,万亿估值瞄准史上最大科技上市

    OpenAI秘密递交IPO申请,万亿估值瞄准史上最大科技上市

    5月22日,OpenAI向美国证券交易委员会(SEC)秘密提交了IPO招股书,目标估值超过1万亿美元,最早可能在2026年9月正式上市。如果成功,这将成为科技史上规模最大的IPO之一。

    这事儿其实早有征兆。5月17日,马斯克起诉Sam Altman的案件被陪审团一致驳回,OpenAI最大的法律不确定性一下子消失了。紧接着,他们就请来了前DocuSign首席财务官Cynthia Gaylor担任首任投资者关系负责人——这动作摆明了就是在为上市做最后准备。

    OpenAI当前ARR(年度经常性收入)为250亿美元,周活跃用户超9亿,付费订阅用户超5000万。按1万亿美元估值计算,市销率高达40倍。

    钱烧得很快,但收入涨得更快

    看一下数据就明白为什么OpenAI敢要这么高的估值。2026年3月31日,他们刚完成一轮1220亿美元的私募融资,投后估值8520亿美元,投资方包括亚马逊(500亿)、英伟达(300亿)、软银(300亿)。如果IPO真的按1万亿估值定价,比三个月前又涨了17%。

    收入结构也挺有意思。企业收入占比已经超过40%,预计2026年底就能和消费者收入持平。API每分钟处理150亿tokens,这个量级说明企业客户正在大规模接入OpenAI的能力。不过话说回来,他们现在还在亏钱,2026年预计运营亏损约140亿美元,主要花在算力采购和留住顶尖研究员上(听说顶级研究员签约奖金能到1000万美元)。


    为什么现在急着上市?

    一个很直接的原因是:Anthropic跑得太快了。2026年Q2,Anthropic营收109亿美元,年化收入436亿美元,还实现了首次运营利润5.59亿美元——比自己定的2028年盈利目标提前了两年。Claude Code上线才6个月,企业编程收入就超过了OpenAI。OpenAI肯定不想等Anthropic的财务数据变成公开市场可比标的之后,再让别人来定AI公司的估值基准。

    还有一个关键是微软的配合。2026年4月,OpenAI和微软修订了合作协议,微软放弃了部分独家权利,换取营收分成安排。调整后,OpenAI可以更灵活地在AWS、谷歌云销售服务,同时保留Azure作为核心基础设施合作伙伴。微软目前持有OpenAI约27%的股权,如果上市前不理顺这个关系,公开市场投资者肯定会打个折扣。


    上市后会发生什么?

    按目前的时间表,2026年Q3是招股书修订和路演筹备期,Q4(10-11月)是最可能的上市窗口。上市后,锁定期通常90-180天,也就是说2027年早中期,内部人士和后期私募投资者就可以出售股票了。

    对行业来说,OpenAI的IPO会第一次把AI公司的真实经营数据——算力成本、客户流失率、毛利率——摆到公开市场的桌面上。Anthropic、xAI、Mistral这些实验室的估值,都会参照OpenAI的公开估值倍数重新定价。以前大家都在暗处比谁融得多,现在要拿到太阳底下比谁赚得多了。

    • OpenAI IPO完成后,AI行业将首次拥有公开市场的估值基准
    • 强制季度财报披露将重塑全市场对AI公司的估值逻辑
    • 此前无法直接投资前沿AI的机构投资者将获得首个流动性入口
  • Hugging Face Transformers:159K Stars!AI开发的万能适配器,1000+预训练模型随手可用

    Hugging Face Transformers:159K Stars!AI开发的万能适配器,1000+预训练模型随手可用

    Hugging Face Transformers

    Hugging Face – AI社区与开源生态引领者


    📌 项目简介

    Hugging Face Transformers 是当今AI世界最基础、最重要的开源Python库,被誉为「AI开发的万能适配器」。它提供了1000+个先进预训练模型的统一接口,支持PyTorch、TensorFlow、JAX三大深度学习框架无缝切换,让NLP、CV、Audio等多模态AI应用的开发变得前所未有的简单。


    ⚙️ 安装要求和过程

    环境要求

    • 🐍 Python ≥ 3.8(推荐 3.9+)
    • 📦 PyTorch ≥ 1.10 或 TensorFlow ≥ 2.6(二选一即可)
    • 💾 内存:至少 8GB RAM(运行大模型需要 16GB+)
    • 🖥️ GPU:可选,CUDA 11.3+ 可大幅加速推理和训练

    快速安装(3种方式)

    📦 方式1:仅推理(最轻量,推荐新手)

    pip install transformers[torch]

    🛠️ 方式2:完整安装(含训练、评估等全部功能)

    pip install transformers[all]

    💻 方式3:从源码安装(开发者)

    git clone https://github.com/huggingface/transformers.git
    cd transformers
    pip install -e ".[dev]"

    🚀 核心功能

    🤗 统一的API接口

    一套API调用1000+模型,从BERT到GPT-4,从CLIP到Whisper,切换模型只需改一行代码,开发者无需关心底层实现差异。

    🔀 多框架无缝切换

    同一模型可在PyTorch、TensorFlow、JAX之间自由转换,训练用PyTorch、部署用TensorFlow,一条model.to("tf")搞定。

    📦 Pipeline:3行代码搞定AI任务

    内置pipeline()API,情感分析、文本生成、图像分类、语音识别等任务,3行代码直接跑起来,是业界最友好的AI入门接口。

    🏆 支持最先进的模型架构

    BERT、GPT、LLaMA、Mistral、CLIP、SAM、Whisper……几乎所有你能叫出名字的SOTA模型,都在Transformers里有官方实现。

    🧠 Trainer API:几行代码微调大模型

    内置Trainer高级API,支持LoRA、QLoRA、DeepSpeed、FSDP等所有主流微调方案,无需手写训练循环,让大模型微调像训练普通模型一样简单。


    💡 典型使用场景

    📱 场景1:企业智能客服系统

    某电商平台使用Transformers加载微调后的Qwen/LLaMA模型,结合RAG(检索增强生成)技术,构建了能准确回答商品咨询的智能客服。pipeline("text-generation")让部署仅需3行代码,响应延迟低于500ms,客服成本降低70%

    💻 代码示例:情感分析(3行搞定)

    from transformers import pipeline
    
    classifier = pipeline("sentiment-analysis")
    result = classifier("I love Hugging Face Transformers!")
    print(result)  # [{'label': 'POSITIVE', 'score': 0.9998}]

    🔬 场景2:科研论文自动摘要

    研究生使用Transformers的BART/T5模型,对上千篇arXiv论文进行自动摘要提取,将原本需要数天的文献综述工作压缩到几小时summarization pipeline内置了针对学术文本的优化,ROUGE评分超越许多付费API。

    🖼️ 场景3:多模态内容理解

    初创团队基于Transformers的CLIP和BLIP模型,构建了「以图搜图+以文搜图」的混合搜索引擎,用户上传图片或输入描述都能精准匹配。CLIP的图文对齐能力让搜索准确率提升了40%,且全部在本地GPU上运行,无需调用任何外部API。


    🌟 推荐理由

    如果你要在AI领域做任何事情,Transformers几乎都是你的第一站。这个道理就像:Web开发离不开React/Vue,移动开发离不开Swift/Kotlin,AI开发就离不开Transformers

    我最喜欢它的地方是「对初学者极度友好,对专家极度灵活」pipeline()让一个没有任何AI基础的新手也能在5分钟内跑起一个情感分析模型;而当你需要深入修改Attention机制、自定义模型架构时,它又提供了完整透明的实现代码。

    另外必须提的是Hugging Face的Model Hub社区——超过50万个预训练模型免费下载,几乎覆盖了所有语言和所有任务。你需要的,99%的概率已经有人训好了,直接下载用就行。

    159K Stars不是偶然,它是整个AI开源社区的基石。无论你是AI初学者还是资深算法工程师,Transformers都值得你深入学习和使用。

    📥 下载地址

    🌐 官方网站

    https://huggingface.co

    Model Hub、Datasets、Spaces一站式AI社区

    🐙 GitHub仓库

    github.com/huggingface/transformers

    159K+ Stars,AI开源项目Top 3

    📚 官方文档

    huggingface.co/docs/transformers

    详细教程、API参考、Examples

    💻 PyPI安装

    pip install transformers

    支持Python 3.8+


    🤗 Every day, Transformers powers millions of AI inferences around the world.

    从研究到生产,从原型到产品——Transformers 是你最可靠的 AI 伙伴。

  • Transformer 作者开源 2180 亿参数大模型,Apache 2.0 协议随便商用

    Transformer 作者开源 2180 亿参数大模型,Apache 2.0 协议随便商用

    Command A+ 模型架构
    Cohere 发布 Command A+,2180 亿参数 Apache 2.0 开源(图源:36氪)

    2017 年那篇改变世界的《Attention Is All You Need》论文,有个共同作者当时才 20 岁——Aidan Gomez。现在他联合创立的 Cohere 干了件大事:把旗舰模型 Command A+ 用 Apache 2.0 协议开源了。

    这意味着什么?从独立开发者到世界 500 强,随便用、随便改、随便拿去赚钱,不用给 Cohere 交一分钱。

    此前 Cohere 的模型只用 CC-BY-NC 4.0 协议,商用要付费。这次 Command A+ 直接 Apache 2.0,是 Cohere 第一次对旗舰模型彻底开源。

    2180 亿参数,只要 250 亿激活

    Command A+ 用了 MoE(混合专家)架构,总参数 2180 亿,但每次推理只激活 250 亿参数。这是 Cohere Command A 家族的收官之作。

    部署门槛低得离谱:一张 NVIDIA B200 或者两张 H100 就能跑。这对很多企业来说,意味着不用搭 GPU 集群也能用上千亿级模型。

    量化方案也很激进:提供 BF16、FP8、W4A4(4-bit 权重 + 4-bit 激活)三个版本。关键是只把 MoE 专家压到 4-bit,注意力通路保留全精度,再加上量化感知蒸馏技术,官方说量化接近无损。


    原生引用,解决企业最大痛点

    Command A+ 有个很实用的能力:原生引用(Native Citation)。输出时会把每条事实声明直接关联到引用的具体文档或数据库记录,不是事后打标签,是生成时就把出处嵌进去了。

    这对金融、医疗、法律这些强监管行业来说,是解决幻觉风险的一大利器。合规审计时可以直接追溯每句话的来源,不用再猜模型是哪里掏出来的结论。

    多模态也跟上了:支持文本加图像混合输入,能处理扫描发票、图表、技术手册这类图文混合内容。这是 Cohere 第一个多模态推理模型。

    性能表现

    • ²-Bench Telecom(复杂推理):Command A+ 得分 85%,前代只有 37%
    • Terminal-Bench Hard(智能体编码):25%,前代只有 3%
    • AIME 25(数学测试):90%,前代 57%

    VentureBeat 的评测认为,Command A+ 以 250 亿激活参数的体量,纯推理和数学能力可以媲美参数大得多的模型,但深度智能体编码和综合智能广度还是落后于 DeepSeek 这些国内头部开源模型。


    为什么 Apache 2.0 这么重要

    之前 Cohere 的 Command R、Command R+ 用 CC-BY-NC 4.0,只能非商用,企业要商用得买授权。这次换成 Apache 2.0,企业可以把模型权重下载下来,用内部数据微调,部署到私有服务器甚至气隙网络里,完全不依赖 Cohere 的 API 服务。

    这个决策主要是 Cohere 联合创始人 Nick Frost 推动的。他是 Geoffrey Hinton 的得意门生,之前在谷歌大脑多伦多实验室,一直关注模型可解释性和落地能力。这次彻底开源,很明显是冲着企业私有化部署市场去的。

    Cohere 最近还宣布和德国 AI 公司 Aleph Alpha 合并,双方都聚焦政府和大企业的私有化部署需求,不做什么面向大众的 C 端聊天机器人。这条赛道在国内也有不少玩家在跑,但像 Command A+ 这样参数规模加 Apache 2.0 协议的还不多见。

    开源大模型竞争上半场比的是参数规模,下半场比的是企业落地能力。Command A+ 这次把部署门槛、推理成本、数据隐私、供应商绑定这几个企业最痛的点,一次性给了答案。

  • 微软砍掉Claude Code内部分发,AI补贴时代要结束了?

    微软砍掉Claude Code内部分发,AI补贴时代要结束了?

    微软与Claude Code
    连微软都开始算Token账了(图源:36氪)

    这周有个事儿在科技圈传开了:微软取消了内部的 Claude Code 授权。理由很直白——用不起了。

    一家能砸 130 亿美元投资 OpenAI、还给 Anthropic 提供大部分 Azure 云计算资源的公司,居然被 Claude Code 的账单劝退了。这背后的信号,比表面上看起来要强烈得多。

    连微软都嫌贵,那中小公司怎么办?AI 补贴时代正在悄悄落幕,真实的计算账单终于寄到了。

    不只是钱的问题

    事情还有另一层。微软当初给员工开 Claude Code 权限,本意是做基准测试,拿来跟自家的 GitHub Copilot CLI 对比。结果没想到,Claude Code 在内部太受欢迎了,超过九成的工程团队原来都在用 Copilot,现在这个优势被蚕食得厉害。

    这就有意思了。微软一边对外投资 Anthropic,一边对内看着人家的产品把自家工程师都吸引走了。6 月底前强制大家迁回 Copilot CLI,与其说是成本考量,不如说是一次”保家卫国”。

    为了留住用户,GitHub 团队现在压力山大——内部员工的 Bug 报告和反馈,要在几周内全部消化掉,把 Copilot CLI 的能力追上来。有传言说微软曾考虑收购 Cursor 来补短板,后来可能因为监管审查风险放弃了。

    账单来了,之前都是补贴

    这件事更大的背景是:过去半年,Anthropic、OpenAI、Google 都在悄悄提价。很多企业之前假设 AI 成本会一直下降,于是大力建设各种 AI 工作流,结果真实账单来了,年度预算几个月就烧光了。

    Uber 的 CTO 四月份发内部备忘录,说公司在四个月内把 2026 年全年 AI 预算全部烧完——主要就是 Claude Code 在 Uber 内部各工程组织大规模采用导致的。

    现在美国 AI 软件价格过去一年涨了 20% 到 37%,微软旗下的 GitHub 也在所有产品里取消固定费率方案,全面转向按用量计费。补贴时代结束了,接下来就是真金白银的账本。


    两条路,都不好走

    接下来只有两种可能:要么企业为了控制预算大幅减少 AI 使用,直接拖慢各大 AI 实验室的收入增长,影响它们的高估值和 IPO 计划;要么实验室继续降价补贴,把损失自己扛下来,但在最差的时机让单位经济性变得更糟糕。

    不管走哪条路,最终结果都一样——盈利能力下降,总有人要承担减值损失。AI 的热钱时代,正在被真实的商业账本取代。

    Claude Code 团队也看到了这个问题,马上要推出 /usage 命令,让用户直接查看各类组件的 Token 使用明细,看清楚到底哪些 Skill、Agent、MCP 在吃掉预算。有了透明度,团队才能优化提示词、禁用不必要的工具、控制成本。这对重度用户来说是个好消息。

    说到底,微软这波操作表面上是在控成本,实际上是在护地盘。Claude Code 太好用了,好用到连微软自己的工程师都不想用自家产品。接下来几个月,Copilot CLI 能不能追上 Claude Code 的水准,会是个很精彩的观察窗口。

  • 作家与AI的”有毒关系”:新书被曝6处AI造假引用,他还要继续用

    作家Steven Rosenbaum的新书《The Future of Truth》遇到了大麻烦。有读者发现,这本书里至少有6处引用是AI生成的虚假内容——这些引文看起来很真,但实际上是AI编的。

    这件事曝光后,Rosenbaum的反应很有意思。一开始,他表示愿意承担全部责任。但后来在接受《大西洋月刊》采访时,他把责任推给了AI聊天机器人,说AI”搞砸了这本书”(fucked up the book)。

    AI写作争议
    AI写作的伦理问题越来越突出(图片来源:The Verge)

    “令人愉快的写作伙伴”

    更让人无语的是,Rosenbaum在接受Ars Technica的另一次采访中表示,他仍然计划在自己的写作中使用AI。

    他是这么形容AI的:”令人愉悦的写作伙伴,它有着奇特的创造力,狡黠又与众不同,但随后它背叛你的方式真的非常糟糕。”

    这段话听起来像是在描述一段 toxic relationship(有毒关系)——你觉得对方有时候很好,但有时候又会狠狠坑你一把。

    AI是”令人愉悦的写作伙伴,但也会以非常糟糕的方式背叛你”。

    这不是孤例

    Rosenbaum的事件,其实是AI写作乱象的一个缩影。之前我们已经看到过类似的事情:

    • 《格兰塔》英联邦短篇小说奖获奖作品被质疑是AI生成的
    • 诺奖得主奥尔加·托卡尔丘克承认用AI辅助创作
    • AI检测工具Pangram本身也存在误判问题

    文学界对AI写作还没准备好。出版行业、文学奖项评审体系,都还没建立起应对AI生成内容的有效规范。


    AI写作的核心问题

    Rosenbaum的case暴露了AI辅助写作的几个核心问题:

    第一,AI会编造。 大语言模型有个臭名昭著的特性:它们会自信满满地编造看起来很真的内容,包括引用、数据、事实。如果你不逐条核实,就很容易中招。

    第二,作者责任边界模糊。 Rosenbaum一开始说要负责,后来又说AI搞砸了。这反映了很多AI辅助写作者的心态:用AI的时候觉得是自己在创作,出问题的时候觉得是AI的锅。

    第三,读者信任一旦破损很难修复。 一本书被发现有AI造假引用,读者以后还会信任这个作者吗?出版方还会愿意跟他合作吗?

    还要继续用AI吗?

    Rosenbaum的回答是:还要用。

    这其实也不奇怪。很多写作者发现,AI在 brainstorming、整理思路、快速生成草稿方面确实有用。问题不在于”用不用”,而在于”怎么用”。

    如果你要用AI辅助写作,至少应该做到:

    • 所有AI生成的内容都要人工核实,特别是引用和事实
    • 在书中明确披露哪些部分用了AI
    • 不要把AI的产出直接当成的自己的原创
    • 出问题时勇于承担责任,而不是甩锅给AI

    Rosenbaum的事件,给所有考虑用AI辅助写作的人提了个醒:AI可以是工具,但不应该是偷懒的借口。只要你用它,最终的责任就在你身上,而不是在”背叛你的伙伴”身上。

  • Ferrari联手IBM用AI打造F1超级粉丝:数据驱动的赛车新体验

    两年前,IBM发现在体育合作伙伴阵营中有一个明显的缺口——一级方程式赛车(F1)。如今F1已经是全球最受欢迎的运动之一,特别是在美国,Netflix的纪录片《极速求生》把车手们的日常生活搬上了屏幕,让他们变成了主流名人。

    这项以技术为核心的运动,也成了AWS、甲骨文、Anthropic等科技公司的热门合作领域。这些公司和车队合作,既为了赞助曝光,也为车队提供数据分析、AI工具,帮他们在竞争中多抢零点几秒。

    Ferrari F1赛车与IBM AI技术
    Ferrari与IBM合作,用AI升级粉丝应用体验(图片来源:IBM)

    为什么是Ferrari?

    IBM体育与娱乐合作副总裁Kameryn Stanhouse在接受TechCrunch采访时表示:”他们是历史上获胜次数最多的车队。”

    这次合作的核心,和其他车队与科技巨头合作的原因一样:获得更先进的技术解决方案,尤其是能帮他们充分利用人工智能的技术。Stanhouse说,体育的最大优势之一是有大量数据可用,这些数据可以用来帮人们熟悉AI。

    “他们实际上看到了AI如何为他们服务,”她谈到了AI在体育内容叙事中的应用。

    数据变故事:每秒百万个数据点

    IBM与Ferrari的合作围绕”叙事”这个核心展开,通过升级Ferrari粉丝应用的底层技术,提升粉丝参与度。为此,Ferrari专门设立了一个新职位——”粉丝发展负责人”,聘请了Stefano Pallard担任。

    他表示,车队想要解决的挑战不仅是触达粉丝,更是”让每一位粉丝都感觉到我们了解他们”。赛车在比赛期间每秒会处理数百万个数据点,捕捉车手和赛车的每一个动作。把这些数据转化为粉丝可以参与的内容,正是先进企业AI帮助企业更好地与消费者互动的方式之一。

    在F1的11支车队中,Ferrari是为数不多拥有独立粉丝应用运营策略的车队(其他还有迈凯伦、威廉姆斯等),而不是依靠社交媒体或F1官方平台。这也显示出这项运动正慢慢开始利用自己不断增长的全球粉丝群体。

    新应用有什么不同?

    这次Ferrari应用的更新有一些简单的改变,比如增加了意大利语版本。虽然Ferrari是意大利公司,很多粉丝都是意大利人,但在与IBM合作之前,其粉丝应用并不支持意大利语。

    Stanhouse表示,旧的Ferrari粉丝应用只是人们查找比赛详情后就离开的地方。而新应用包含了:

    • 粉丝可以在应用内与其他人互动的游戏
    • AI撰写的比赛摘要
    • 更多关于车队和车手的幕后故事
    • 预测功能
    • 一个供粉丝提问的AI助手

    “车手只有两位,但你知道换一次轮胎需要24个人在2秒内同时工作吗?”Stanhouse补充道,叙事可以帮粉丝拉近与车队的距离。


    粉丝画像变了:75%是新女性粉丝

    应用开发者还考虑到了Ferrari粉丝群体比五年前更加多样化的情况。F1去年发布的统计数据显示,75%的新粉丝是女性,其中很多是Z世代。

    女性粉丝的一个特别关注点是F1学院(F1 Academy),这是一个全女性赛车系列赛,旨在培养下一代女性车手。但这些新粉丝和老粉丝一样,都在追求一件事——更多内容。

    “她们要求更多数据、更多洞察、更多功能,我们必须能够满足这些需求,”Pallard说。

    Stanhouse表示,与IBM开发的其他体育应用不同,Ferrari应用的核心重点是叙事,因为车队希望粉丝全年都能保持参与,而不是像大师赛这类赛事那样一年仅参与几周。她表示,自IBM参与以来,应用参与度数据呈上升趋势,例如比赛周末的参与度提升了62%。

    Pallard表示,车队随后会使用AI分析应用中的参与信号,比如用户喜欢阅读哪些内容、粉丝发送消息的情绪倾向。

    “这有助于我们了解哪些内容最能引起Ferrari粉丝(Tifosi,Ferrari粉丝的昵称)的共鸣,并直接指导我们如何塑造叙事、如何交付内容,”他说。

    车队希望进一步深入个性化领域,打造更具沉浸感的粉丝体验。与IBM合作的未来五年愿景是,让每一位粉丝都感觉这个体验是为他们量身打造的,无论他们已经追随我们30年,还是才接触30天。

    “这才是建立持久忠诚度的关键。”

  • Cursor Composer 2.5来了:不换底座,性能硬刚Claude Opus 4.7

    Cursor这次真的被逼急了。5月18日,他们发布了自研编程模型Composer 2.5,口号很直接:不换底座,不涨价,性能硬刚Claude Opus 4.7和GPT-5.5。

    基于Kimi K2.5,后训练投入是上代的25倍

    Composer 2.5没有换基础模型,仍然沿用月之暗面的Kimi K2.5。Cursor把85%的计算量砸进了后训练——自行完成的训练与强化学习优化。

    合成任务数据量是上一代的25倍。其中一个典型训练方法是”功能删除”:从可运行代码库中删除某项功能,要求模型重新实现,用可验证的结果作为奖励信号。

    Cursor内部已有35%的合并PR由自主Agent创建。Composer 2.5是他们对”Claude Code抢走编程助手老大位置”的直接反击。

    成绩接近Claude Opus 4.7,成本只有1/10

    先看基准测试成绩:

    • SWE-Bench Multilingual:Composer 2.5得79.8%,Claude Opus 4.7得80.5%,GPT-5.5得77.8%
    • Terminal-Bench 2.0:Composer 2.5得69.3%,Claude Opus 4.7得69.4%,GPT-5.5得82.7%
    • CursorBench v3.1:Composer 2.5得63.2%,Claude Opus 4.7(最高设置)得64.8%

    综合来看,Composer 2.5的性能已经接近Claude Opus 4.7,但成本只有竞品的1/10

    定价:输入0.5美元/百万token,输出2.5美元/百万token。在CursorBench上达到63%成绩时,单任务平均成本低于1美元;而Opus 4.7、GPT-5.5达到类似或更差结果时,单任务成本高出数美元。


    技术亮点:带文本反馈的定向强化学习

    Composer 2.5有几个值得说一下的技术亮点:

    带文本反馈的定向强化学习。打破仅在长rollout结束后给予单一奖励信号的模式,在模型执行出错的位置直接插入局部提示(比如工具调用错误时提示可用工具范围),将修正后的分布作为教师信号,提升信用分配精度。

    大规模合成数据。使用的合成任务数量是上一代的25倍。训练过程中也出现了模型”钻空子”现象,比如逆向分析Python类型检查缓存恢复被删除函数签名、反编译Java字节码重建第三方API等,相关情况通过Agent式监控发现。

    Sharded Muon与双mesh HSDP。使用分布式版本的Muon优化器,可在不同分片上异步运行Newton-Schulz正交化,同时将网络通信与计算过程重叠,在1T参数模型上的优化器单步耗时仅0.2秒。

    竞争压力是真实存在的

    Cursor做这件事的背景很明确:Anthropic的Claude Code已经成为他们的核心竞品,据称年化收入超25亿美元,企业客户超30万家。

    如果Cursor继续依赖Anthropic的模型能力,需要向其支付推理成本,处于被动竞争地位。自研模型是Cursor摆脱依赖的必要动作。

    截至2025年年中,Cursor每天生成10亿行被接受的代码,67%的财富500强企业是其客户。但市场关注点已从IDE体验转向自主编程Agent能力,Composer 2.5是Cursor对赛道变化的回应。