博客

  • KPMG把Claude塞进27.6万员工的电脑里,四大会计师事务所的AI赌注





    KPMG把Claude塞进27.6万员工的电脑里,四大会计师事务所的AI赌注

    KPMG把Claude塞进27.6万员工的电脑里,四大会计师事务所的AI赌注

    2026年5月19日,毕马威(KPMG)和Anthropic quietly宣布了一件事——把Claude部署给全球138个国家、27.6万名员工。这不是”大家可以试试AI”的那种试点,而是直接把Anthropic的前沿模型嵌进了毕马威给客户交付工作的核心平台里。

    有意思的地方在于,这次部署不是简单地给员工开个AI访问权限。Claude Cowork和Claude托管代理是直接集成到毕马威的”数字网关”(Digital Gateway)里的——这个网关是毕马威专业人士用来对接客户、跑专有工具、管AI工作流的核心系统。换句话说,27.6万人不是在和一个聊天界面说话,而是在他们每天用的平台上直接构建AI代理工作流。

    毕马威全球董事长Bill Thomas说这套东西围绕”安全、信任和治理”,不是只追求速度。考虑到Anthropic是那家因为自主武器问题起诉过美国国防部、还发布了第一个公开AI安全框架的公司,这个说法在2026年听起来不算空话。

    从数周到数分钟:代理部署速度的革命

    毕马威和Anthropic说,以前要花好几周工程周期才能配置好、适配税务法变更的代理,现在在数字网关里1小时内就能生成。这个速度提升不是因为Claude变快了,而是因为集成方式是”原生”的——代理工作流直接在毕马威自己的客户交付平台里跑,不需要额外搭建基础设施。

    初期覆盖的是税务和私募股权客户,之后会扩展到所有咨询服务。2026年9月之前,整套系统会在微软Azure上完成全量落地。网络安全是重点部署领域之一——毕马威和Anthropic的团队会用Claude来识别和修复重要客户系统的漏洞,这是Project Glasswing工作在毕马威分销渠道里的具体落地。

    为什么是Claude,不是GPT

    四大会计师事务所选Claude不是偶然。2026年初,德勤宣布把Claude部署给全球约47万名员工,那是当时最大的单一Claude企业部署。2026年5月14日,普华永道(PwC)跟着宣布全球联盟,把Claude Code和Cowork推给全球专业服务员工,光美国就有3万人正在接受认证。

    毕马威现在是第三家,但它的玩法有点不一样。德勤和普华永道更多是”让员工用Claude提升效率”,毕马威则是把Claude做成了给客户交付服务的”基础设施”——Claude不只是工具,而是变成了毕马威服务的一部分。这对Anthropic来说意味着什么?意味着27.6万名专业人士每人接触几十个客户,Claude的实际触达面可能是几百万企业用户。


    四大的AI竞赛,安永还撑得住吗

    德勤(47万)、普华永道(数十万)、毕马威(27.6万)——这三家到2026年9月都会把Claude标准化。剩下那家安永(EY)还没发布同等级别的公开公告。但压力是看得见的:当你的竞争对手都在用Claude给客户交付服务的时候,你很难跟客户解释”我们还在评估”。行业里有人猜,安永可能在2026年第三季度会有动作。

    这个局面的受益者显然是Anthropic。三大家合计约110万名专业人士,他们服务的对象是财富500强、全球2000强和大多数主要政府。当三大四大都把Claude作为标准AI模型的时候,他们实际上是在给每一个客户组织做”隐性推荐”——Claude是安全的、有治理的、企业级的choice。这个分销渠道,任何直接营销都复制不出来。

    一个不怎么被提起的数字

    毕马威在这个联盟里还有一个特殊身份:Anthropic把毕马威列为私募股权领域的”首选咨询方”。这意味着,如果一家被私募股权公司控股的企业想要部署Claude,Anthropic会推荐毕马威来干这个活。这不是小事——私募股权公司控制着全球大量的企业资产,这笔渠道的价值,可能比27.6万个Claude授权本身的收入还要大。



  • OpenAI挖来前F1职业车手当CMO,光找人就花了半年

    OpenAI最近任命Colin Fleming为首席营销官(CMO),这事儿本身不稀奇,稀奇的是:光是找一个合适的CMO,他们就花了整整半年时间。

    Colin Fleming LinkedIn
    Colin Fleming 的 LinkedIn 页面,他自称早期曾效力红牛车队

    一个CMO岗位,为什么找了半年?

    纽约时报挖出来的八卦显示,OpenAI之前盯上的CMO候选人,名头一个比一个响:优步总裁Jill Hazelbaker、苹果前设计总监Jony Ive的公关负责人Sarah O’Brien、Square前公关高管Aaron Zamost……每一个拎出来,都够独当一面。

    结果最后被选中的,是Colin Fleming——一个早期效力过红牛F1车队、后来在Salesforce干了13年、最近在ServiceNow当CMO的人。

    “在我职业生涯早期,我曾效力于红牛车队,参加过F1级别的职业比赛。那种速度、精准度和压力,塑造了我今天的领导方式:果断、负责,并且在高风险的情况下也能游刃有余地大规模运作。”

    他的核心竞争力:把复杂技术翻译成人话

    Colin最早在eSoles(一家为专业运动提供鞋垫定制服务的公司)做了4年营销主管,那算是他从赛车手转型到营销的第一站。

    真正让他出圈的,是在Salesforce的那13年。当时大多数企业还在用本地服务器和买断式软件,”CRM”这种词对很多人来说就像天书。Colin和团队做的事情,恰恰是把这些复杂技术翻译成市场能听懂的语言——不再只讲产品功能,而是讲”未来工作方式””企业数字化””云时代”这些更大众化的叙事。

    Salesforce后来能从一家卖CRM的软件公司,变成云计算时代的行业代表,这一步很关键。而Colin也在这个过程中,从产品营销总监一路升到全球营销执行副总裁。


    为什么是现在?OpenAI的营销到底缺什么?

    严格来说,OpenAI的CMO岗位历史短得有点离谱。因为在2024年之前,OpenAI更像一家研究实验室,品牌、传播、市场这些职能长期是弱化的。

    最早负责这块的,是2021年从苹果跳到OpenAI的Hannah Wong,但她当时的头衔是首任CCO(首席传播官),管的也是媒体、公关、政策沟通,严格说那是”传播”,而非传统意义上的”市场营销”。

    OpenAI历史上正式挂过CMO头衔的,实际上只有一个人:2024年才上任的Kate Rouch(她之前在Meta干了十余年,也是Coinbase的首任CMO)。今年4月,Kate Rouch发声明称因需要治疗癌症而卸任。过渡期内,大股东Thrive Capital的营销合伙人Kelly Sims临时顶班。

    OpenAI对营销的组织建设,慢了半拍。当一家公司估值逼近万亿美元、IPO进入倒计时,营销和公关两条线却同时无主,这事怎么看都有点奇怪。

    Colin接的是一个”高风险挑战”

    为什么其他候选人都不接,偏偏Colin接了?他在LinkedIn上形容离开ServiceNow的决定时用了一个词:”gut-wrenching”(令人心碎)。但紧接着他又补了一句:”如果不去,我会后悔一辈子。”

    这话听起来很像车手的思维方式:明知道风险巨大,但只要那是时代拐点、是足够刺激的挑战,他还是会踩下油门。

    他接手之后的核心任务也很明确:ChatGPT已经家喻户晓,下一步是怎么从Anthropic手里抢企业端市场。Colin最擅长的,恰恰是把新技术翻译成市场愿意理解的语言——这个能力,放在当下的OpenAI,就是最缺的那块拼图。


    📎 原文来源:OpenAI Recruits F1-Level Racing Driver for Public Relations(36氪) | 参考:量子位、Brand Innovators、MediaBrief
  • 谷歌DeepMind用AI一口气证明9道56年数学难题,单题成本仅数百美元

    谷歌DeepMind最近搞了个大动作——AlphaProof Nexus,一个由Gemini驱动的形式化证明框架,一口气解决了9道悬而未决的埃尔德什(Erdős)数学开放问题,其中最老的已经被卡了56年。与此同时,它还顺手证明了在线整数序列百科(OEIS)里44个未解猜想。

    Google DeepMind AlphaProof Nexus
    AlphaProof Nexus 由 Gemini 驱动,结合 Lean 形式化验证

    不是”AI猜答案”,而是”机器可验证的证明”

    这次和以前那些”AI做数学题”的新闻不太一样。AlphaProof Nexus 的核心是把大语言模型(LLM)和 Lean 形式化验证工具绑在一起——LLM负责生成证明思路,Lean 负责严格校验每一步逻辑是否真的成立。

    这样做的好处是:证明不是”看起来对”,而是”机器严格验证过对”。传统数学界对AI生成证明最大的质疑就是”你咋知道它没在胡说”,Lean 验证正好堵住了这个漏洞。

    关键突破:单次推理成本仅数百美元,论文与代码已在 GitHub 开源(arXiv:2605.22763,CC BY-NC-ND 4.0 协议)。

    哪些问题被解决了?

    这次解决的9道 Erdős 问题横跨组合数学和图论,其中两个最引人注目的问题已经被卡了56年。完整列表在论文附录里,这里说几个有意思的:

    • Erdős #12:关于整数序列中等差数列密度的猜想,困扰学界超过半个世纪
    • Erdős #125:30年无人给出完整证明的图论问题
    • Erdős #846:34年悬而未决的组合数学问题
    • 其余6道问题同样来自 Erdős 遗留的353道开放问题清单,这次共解决了9道
    • 额外证明了 OEIS 百科中44个序列猜想,覆盖组合学、优化、图论、代数几何、量子光学等领域

    和 OpenAI 的那次突破有什么区别?

    就在前不久,OpenAI 宣布他们的 AI 推翻了一个有80年历史的 Erdős 猜想。两边都在做”AI+数学证明”,但路径不太一样:

    OpenAI 那次更多依赖强化学习驱动的推理,而 DeepMind 这次走的是”LLM生成 + Lean 形式化验证”的路线,两种路径各有优劣。形式化验证的好处是证明可以被机器完整检查,数学界更容易接受。

    目前 AlphaProof Nexus 还不能解决那些需要全新数学构造的问题——它强在”验证了,不是”从无到有发明了新数学”。这个界限,也是整个领域下一步要攻克的。

    这个方向意味着什么?

    以前数学家要验证一篇论文的证明是否正确,往往要花数周甚至数月。如果 AI 能快速生成”机器可验证”的证明草稿,数学研究的速度会被整个提起来。

    当然,现在说”AI 取代数学家”还早得很。目前系统能处理的是”已经被明确表述出来的数学问题”,那些需要人类直觉去”发现正确的问题”的部分,AI 还差得很远。但作为一个”超级研究助手”,它已经很能打了。


    📎 原文来源:AlphaProof Nexus 论文(arXiv:2605.22763) | 参考:agentupdate.ai、IT之家、知乎相关讨论
  • 中国正在把顶尖AI人才留在国内,中美模型差距已缩至3%以内

    中国对AI人才的管控,正在从暗示变成明规则。据多方报道,中国顶尖AI研究人员、创业公司创始人和私营企业高管现在出境需要政府批准,部分地区和机构的人士甚至被直接限制离境。

    这件事的背景是中美AI竞赛已经进入肉搏阶段,而中国的追赶速度比很多人预期的快得多。

    斯坦福大学最新AI指数显示:中美顶级AI模型性能差距从2023年的约31%,缩小到2026年3月仅剩2.7%。

    Manus事件是个转折点

    催化剂之一是Meta拟以20亿美元收购中国AI创业公司 Manus 的交易。中国监管机构随即介入调查,怀疑这笔交易是否违反了外商投资相关规定,两名联合创始人目前被禁止离境。

    据《金融时报》报道,Manus 联合创始人正在琢磨怎么把这个交易拆掉——包括从外部投资者筹集约10亿美元,从Meta手里把公司买回来,以满足监管方的诉求。

    中国上海外滩
    上海外滩 | 来源:TechCrunch

    不止是限制出境

    出境管制只是一部分。今年4月彭博社报道称,中国还计划对流向顶尖AI企业的美国资本设置审查门槛——月之暗面(Moonshot AI)、阶跃星辰(StepFun)、字节跳动等公司在接受美国资金前,必须先拿到政府批文。

    2025年中国还对14种稀土材料实施了两轮出口管制,这些都是高科技军工制造的关键原料;政府资助的数据中心也被禁止使用外国AI芯片。


    美国在哪些地方还有优势?

    客观地说,美国在模型整体质量和髙价值专利方面仍然领先。但中国在论文发表量、引用量和专利总量上已经追平甚至反超。这场竞赛已经不是”美国遥遥领先”的剧本了。

    把人才留住,把资本管住,把供应链握在自己手里——这是中国过去两年在AI领域在做的事情。效果如何,接下来12个月会见分晓。

  • 这家公司用AI帮肿瘤医生省时间,2200万美元融资到手

    癌症患者的病历可以厚得像一本字典。影像报告、病理分析、病程记录,有时候加起来几千页,医生要在每次就诊前把这些全部读完,时间根本不够用。

    Triomics 做的就是这件事——用AI帮肿瘤科医生把病历”消化”成可以直接用的摘要,直接嵌进医生已经在用的工作台里,不用切换系统。

    Triomics 过去一年企业客户基数增长了4倍,年度经常性收入(ARR)增长了10倍。

    从临床试验匹配到全程AI助手

    公司2021年成立,最初的产品是帮患者匹配最合适的临床试验。2024年中期完成1500万美元A轮融资之后,大语言模型的能力突飞猛进,Triomics 也顺势把平台功能扩展到了更完整的临床场景。

    现在 Triomics 能自动生成可验证的患者摘要,还能代替人工完成向政府登记处提交肿瘤报告的法定义务——这件事每家癌症中心都必须做,但极其耗时。

    Triomics联合创始人Sarim Khan和Hrituraj Singh
    Triomics 联合创始人 Sarim Khan(左)和 Hrituraj Singh(右)| 来源:TechCrunch

    为什么要专门做肿瘤学AI?

    通用AI助手也能做摘要,但纪念斯隆-凯特琳癌症中心、耶鲁癌症中心这些顶尖机构选的是 Triomics,原因很简单:它的模型是专门针对肿瘤学数据训练的,不是拿通用模型凑合用用。

    这个赛道上 Triomics 最直接的对手是 Abridge 和微软的 Nuance——它们靠AI记录医患对话来生成病历,路线不太一样,但目标用户高度重叠。


    这一轮2200万美元B轮融资由 Battery Ventures 领投,老股东 Nexus Venture Partners、Lightspeed、Y Combinator 跟投。在AI医疗这个烧钱又难做的赛道里,能做到年收入10倍增长,算是拿到了一张不多见的入场券。

  • 鲁迅书籍呐喊推荐编辑风海报

    鲁迅书籍呐喊推荐编辑风海报

    鲁迅书籍呐喊推荐编辑风海报



    🤖 ChatGPT

    🇺🇸 English Prompt

    Generate a vertical editorial advertising-style visual poster based on specific theme content, first splitting the theme into two visible fields. The upper part is a lighter, emptier, lower-saturation conceptual air field, carrying the title, lightweight symbols, a sense of the year markers, and reading breath; the lower part is a more saturated, more supportive physical experience field, carrying the main subject, materials, short sentences, and emotional temperature. Maintain a clear hard-cut boundary or an approximate hard-cut color plane transition between the two fields; the boundary line is like a layout structure rather than natural scenery, without using complex scenes to explain the theme. The core object is located on the central axis, slightly lower, and spans the boundary, with the top or outer edge entering the conceptual field and the main mass sinking into the experience field; the edges integrate transparency, reflective relationships, same-color layering, contour compression, and highlight refraction, slightly merging with the two background fields, making the object like a bridge connecting two semantics rather than material pasted on a background color. The highest detail density is only concentrated inside the core object, expressing its material, texture, refraction, particles, internal layers, and touchable realism; the background, icons, and text remain flat, clean, and low-noise. The colors adopt a hierarchical relationship of large-area structural colors, sharp dark text, white or high-brightness highlights, and small-area theme trigger colors; when the theme changes, change the hue and temperature, but maintain the proportion of light upper field, heavy lower field, dark text, bright subject, and small but accurate trigger colors. Let the main title become a graphic structure in the upper half of the image, using strong scale differences, restrained black, and a tough font skeleton, and set a glyph event with more curved tension or high contrast to participate in overlay and rhythm, making the text like a visible trajectory of smell, speed, or emotion. Auxiliary text is compressed into edge annotations, short sentences below the subject, and low-contrast miniature metadata at the bottom; the bottom can form a very shallow information band, ending quietly like a publication footer. Arrange a hollow single-line symbol derived from the thematic semantics in the conceptual field, with simple lines, low density, and serving only as sensory or conceptual evidence. The overall design retains wide white space and asymmetrical balance, with a stable central subject, edge text forming slight pressure, and the bottom information band closing the layout; the first visual glance sees the hard-cut dual fields, the cross-field subject, huge black characters, low-volume symbols, and clean modern graphic order.
    ——————
    Theme for this session: Lu Xun's book "Call to Arms" recommendation poster
    Ratio 16:9 landscape

    🇨🇳 中文提示词

    围绕具体主题内容生成一张竖版编辑广告式视觉海报,先把主题拆成两种可见场域。上方是更浅、更空、更低饱和的概念空气场,承载标题、轻量符号、年份感标记和阅读呼吸;下方是更饱和、更有承托感的实体体验场,承接主体、材质、短句和情绪温度。两场之间保留明确的硬切分界或近似硬切的色面转折,分界线像版面结构而不是自然风景,不用复杂场景解释主题。核心对象位于中轴偏下并跨越分界,顶部或外缘进入概念场,主体质量沉入体验场,边缘综合透明感、反光关系、同色叠合、轮廓压缩与高光折射,和两个背景场发生轻微融合,使对象像连接两种语义的桥,而不是贴在底色上的素材。最高细节密度只集中在核心对象内部,表现其材质、纹理、折射、颗粒、内部层次和可触摸的真实感,背景、图标和文字保持平面、干净、低噪声。色彩采用大面积结构色、锐利深色文字、白色或高明度高光、小面积主题触发色的层级关系;主题变化时改变色相和温度,但保持上场轻、下场重、文字深、主体亮、触发色小而准确的比例。上半画面让主标题成为图形结构,使用强尺度差、克制黑色、硬朗字形骨架,并设置一个更具曲线张力或高反差的字形事件参与叠压和节奏,让文字像气味、速度或情绪的可见轨迹。辅助文字压缩为边缘注释、主体下方短句和底部低对比微型 metadata,底部可形成很浅的信息带,像出版物页脚一样安静收束。概念场中安排一个由主题语义派生的空心单线符号,线条简洁、低密度、只作为感官或概念旁证。整体保留宽阔留白和非对称平衡,中心主体稳定,边缘文字形成轻微压力,底部信息带收住版面,视觉第一眼看到硬切双场、跨场主体、巨大黑字、低声量符号和清洁的现代平面秩序。
    
    ——————
    本次主题:鲁迅书籍 《呐喊》推荐海报
    
    比例16:9 横版
  • 超写实豪华音频海报银背大猩猩

    超写实豪华音频海报银背大猩猩

    超写实豪华音频海报银背大猩猩



    🤖 ChatGPT

    🇺🇸 English Prompt

    Ultra-realistic luxury audio campaign poster featuring a majestic silverback gorilla relaxing in complete focus while listening to music through elegant graphite-black premium wireless over-ear headphones. The gorilla has a calm expression with partially closed eyes and subtle natural emotion, highly detailed skin and fur textures, realistic facial anatomy, and cinematic studio realism. Centered symmetrical composition with soft diffused luxury lighting, refined shadows, and polished reflections across the headphones. Minimalist warm-gray gradient backdrop inspired by modern Scandinavian advertising design, with oversized translucent typography shapes layered subtly into the background. Clean contemporary branding layout at the top, ultra-premium tech advertisement atmosphere, crisp commercial product-photography styling, sophisticated visual balance, shallow depth of field, hyper-detailed textures, cinematic realism, vertical 8K poster composition.

    🇨🇳 中文提示词

    超写实豪华音频活动海报,描绘了一只雄伟的银背大猩猩正在放松并全神贯注地听音乐,戴着优雅的石墨黑高端无线耳罩式耳机。大猩猩表情平静,双眼微闭,带有细微的自然情感,拥有高度细致的皮肤和皮毛纹理、真实的脸部解剖结构以及电影级的摄影棚写实感。中心对称构图,配以柔和的漫反射奢华光影、精致的阴影以及耳机上光滑的反射。极简主义的暖灰色渐变背景,灵感源自现代斯堪的纳维亚广告设计,背景中微妙地层叠着超大的半透明排版形状。顶部有简洁的现代品牌布局,超高端科技广告氛围,清晰的商业产品摄影风格,精致的视觉平衡,浅景深,超精细纹理,电影写实主义,竖版 8K 海报构图。
  • Robinhood 上线 AI Agent 炒股功能:可自主交易股票,亏损自负

    Robinhood 让 AI Agent 帮你炒股,赚了算你的,亏了也算你的

    AI Agent 能做越来越多的事——写代码、订机票、帮你回邮件。现在,Robinhood 想让它再多做一件:帮你买卖股票。

    这家在线券商本周宣布,用户可以为 AI Agent 开设独立账户,存入一笔资金,然后让 Agent 在市场上自主交易。听起来很酷,但公司自己也赶紧补了一句:这事风险很大,亏完了别怪我们。

    Robinhood AI Agent 交易示意图
    Robinhood 的 AI 交易代理功能演示 | 图片来源:The Verge

    AI 炒股,到底靠不靠谱?

    现在让 AI Agent 替你炒股,胆子真的要很大。Google、微软、OpenAI、Anthropic 这些公司都在吹 AI Agent 是未来方向,但现实是:这技术目前还没达到宣传里那么厉害。

    写代码确实还行,但让 Agent 替你在网上买东西或者填表格,经常出错,效率也不高。拿真金白银去试,风险不是一般的大。

    “代理交易涉及重大风险,包括可能损失全部投资。AI驱动的策略在某些市场条件下可能表现不佳,交易速度快,且可能难以实时监控或停止。”——Robinhood 官方风险提示

    你能做什么,不能做什么

    目前这个功能还在 Beta 阶段,首先支持股票交易。Robinhood 的计划是后续扩展到期权、加密货币、事件合约和期货。

    用户每次收到 Agent 完成交易的推送通知,可以在 App 内查看实时活动流,随时可以暂停 AI 交易。连接的方式是通过模型上下文协议(MCP)——这是个连接 AI 系统和应用的开放标准,Anthropic 推出来的那个。

    除了炒股,Robinhood 还给了 Agent 另一项能力:连接虚拟信用卡。Gold Card 用户可以让 Agent 拿着一张限额的卡去网上买东西——比如告诉它”Nike 新品低于300美元就买”,或者”帮我找评分5星、低于30美元的狗玩具”。每笔消费你可以选择手动批准,Agent 也会在交易前给你预览。


    让 AI 替你做投资决策,这个概念本身不新鲜。但真正把 Agent 和实际券商账户打通,Robinhood 可能是头一个吃螃蟹的大平台。至于你敢不敢把账户交给它,那就是另一个问题了。

  • ElevenLabs 音乐生成模型 Music v2 发布:支持中途切换风格,训练数据全部正版授权

    AI音乐生成迎来新突破:中途换风格不再是梦

    做音乐最怕的事情之一,就是写了一半突然想换风格。以前用AI生成音乐,一旦按下了生成键,整首曲子的风格就定死了,想改只能从头再来。最近 ElevenLabs 发布的 Music v2 模型,直接把这个问题给解决了。

    这家公司大家可能更熟悉它的语音合成产品——就是那个可以把文字转成非常自然的人声的工具。其实他们去年8月就推出了第一代音乐生成模型,现在过去快10个月,v2版本正式上线。

    ElevenLabs AI音乐生成模型
    ElevenLabs 的 AI 音乐生成界面 | 图片来源:TechCrunch

    中途换风格,这次真的做到了

    Music v2 最亮眼的功能,就是支持在音轨生成过程中实时切换音乐风格。官方演示里,一首曲子可以从歌剧无缝过渡到重金属,然后再切到说唱段落,听起来竟然不违和。

    更实用的是,现在创作者可以按段落独立生成——先写前奏,再写主歌,最后写副歌,每段都可以单独调整,不用担心一动全毁。这对于需要精细控制输出质量的音乐人来说,是个实实在在的改进。

    “用户可以选中歌曲的某个部分,只重新生成那一段,其余部分完全不受影响。”——ElevenLabs 官方说明

    版权问题,这次学乖了

    AI音乐生成这个赛道,版权纠纷一直是个大坑。Suno 和 Udio 这两家竞争对手,目前都还背着主要唱片公司的诉讼,原因是被指控用未经授权的版权音乐训练模型。

    ElevenLabs 这次学聪明了——明确宣称所有训练数据都获得了授权,生成的音乐可以直接商用。对于想要把AI音乐用在商业项目里的内容创作者来说,这个保障很重要,省去了未来可能面临法律风险的隐忧。

    竞争对手也在加速

    这个赛道现在相当热闹。过去几个月,Google、Stability AI、Suno 都相继发布了新版本的音乐生成模型,支持更长的音轨和更复杂的编曲。Google 在 I/O 大会上还专门给 Flow Music 工具加了一堆新功能,包括自动生成音乐视频。

    ElevenLabs 的差异化策略是:把音乐生成工具直接嵌入到营销和品牌工作流里。新模型已经上线到他们面向营销团队的 ElevenCreative 工具,以及今年4月刚推出的独立音乐生成 App。API 接口也快要开放了,到时候第三方开发者可以把这个能力集成进自己的产品。


    AI音乐生成到底能不能被主流接受,目前还是个问号。音质、版权、艺术家的抵制,每一道坎都不好跨。但至少从技术层面看,工具正在快速成熟,ElevenLabs 这次的 v2 版本,确实是朝着”可用”的方向又迈了一步。

  • IBM搞了个企业IT基准测试,结果把前沿AI模型全 underneath 50%分数线

    大语言模型在各种排行榜上吊打人类已经不是新闻了。编码、数学、逻辑推理,GPT和Claude们基本想考多少考多少。但IBM研究院和Artificial Analysis最近联合推出了一个专门面向企业IT场景的基准测试ITBench-AA,把这批”优等生”拉回现实——得分全部低于50%。

    这个测试的核心区别在于:它不考”答题”,而是考”做事”。

    ITBench-AA评估的是AI Agent在企业IT环境中自主行动的能力——不是回答问题,而是真正去排查故障、管理配置、处理工单。

    为什么通用基准测不出来?

    通用的AI基准测试有个通病:题目是干净的,输入是结构化的,正确答案是明确的。但真实的企业IT环境完全不是这样。

    想象一下:某个生产环境报警了,日志分散在三台服务器和一个云服务上,错误信息是模糊的,相关文档散落在内部Wiki的废弃页面里。一个合格的IT工程师会知道先查什么、忽略什么、什么时候需要升级工单。而当前的前瞻模型,即使逻辑推理能力很强,在这种”脏”环境里的表现就掉下来了。

    ITBench-AA试图模拟的就是这种复杂度。它要求AI Agent不仅能”理解”问题,还要能规划多步行动、在过程中根据新信息调整策略、并且在不确定时知道停止而非瞎猜。

    50%意味着什么?

    低于50%的意思不是说这些模型”不能用”,而是说它们还没达到”可以无人监督地自主处理企业IT任务”的水平。这个门槛其实挺高的——企业环境里一个错误的自动化操作可能导致服务中断甚至数据丢失,所以准确率要求天然就高。

    但这个结果的另一层含义是:AI Agent要真正进入企业核心运维流程,还有相当距离。现在的Agent更适合做”辅助”角色——给IT工程师提供建议、帮忙查文档、生成脚本草稿——而不是直接接管。


    这个基准测试会改变什么?

    ITBench-AA的出现至少会带来两个变化。第一,它给AI公司和中国企业提供了一个清晰的改进方向——不再是模糊的”提升推理能力”,而是具体的”在多步IT运维场景中减少错误率”。

    第二,它会推动更多行业建立自己的”Agent能力基准”。IT运维只是第一个,类似的基准测试很可能出现在法律、医疗、金融合规等领域。这些领域的共同点是:任务复杂、容错率低、需要多步推理。

    对从事AI Agent开发的团队来说,这个基准测试是个很有价值的参考。它告诉你:别只盯着MMLU和HumanEval了,去看看你的Agent在”脏”环境里到底行不行。