标签: AI技术

  • 微软联手Anthropic,把Claude智能体塞进Office全家桶





    微软联手Anthropic,把Claude智能体塞进Office全家桶


    微软联手Anthropic,把Claude智能体塞进Office全家桶

    昨天(5月23日)的一则消息,可能预示着AI助手大战进入了新阶段。微软正在和Anthropic合作,要把基于Claude的智能体直接塞进Office应用里——Excel、Word、PowerPoint,一个都不放过。

    从聊天窗口到生产力工具,AI智能体正在”下沉”

    这件事挺有意思的。过去两年,我们习惯了打开ChatGPT或者Claude的网页,在对话框里和AI聊天。但微软想做的,是把AI智能体直接嵌进你每天用的那些软件里。

    你在Excel里处理数据,需要分析趋势?不用切换到浏览器打开ChatGPT了,直接在Excel里喊Claude帮忙。你在Word里写方案,需要查资料?Claude就在旁边等着。这种”AI无处不在”的体验,才是微软真正想推的。

    “AI工作流正从独立聊天工具,向生产力软件内置的自主化功能转型。”——AI Flash Report

    不只是微软,谷歌也在”系统级”押注AI

    就在微软和Anthropic搞合作的同一周,谷歌也没闲着。他们把Gemini直接嵌进了Android 17系统,还预览了内置”智能体”功能的新版Chrome浏览器。

    更夸张的是,DeepMind还推出了一个叫”AI鼠标”的东西——你把鼠标悬停在屏幕上,它就能理解上下文,给你提供AI辅助。你说这是鼠标还是AI助手?已经分不清了。


    加州出手了:AI生成的内容必须打水印

    另一边,监管也在跟进。加州州长本周签了个行政命令,要求州政府机构制定”可信AI”采购规则。什么意思呢?就是以后加州的政府部门买AI服务,得先看看这个AI够不够”可信”。

    这个行政命令还专门提到了水印标准——AI生成的图片、视频,必须打上水印,让人一眼就能看出来这是AI弄出来的。这对那些用AI造假的人来说,可不是什么好消息。

    芯片不够用了,AI正在”抢”消费电子的饭碗

    最后说个有点吓人的事。美国议员最近警告说,AI数据中心对芯片的需求太大了,已经影响到智能手机、消费电子这些产品的供应了。

    你想想,芯片厂产能就那么多,AI公司拿走了大部分,留给手机、电脑的就不多了。这会导致什么?物价上涨。所以有人说,AI boom看起来很美好,但普通老百姓买手机、买电脑可能要花更多钱了。

    这一周AI圈发生的事,其实指向同一个方向:

    • AI正在从”聊天窗口”走向”系统级集成”——微软、谷歌都在这么做
    • 监管开始动真格了——加州的水印要求只是开始,未来会有更多类似政策
    • 芯片短缺不只是AI公司的问题,它会影响到每个人的生活
    • AI助手大战已经从”谁的模型更聪明”变成”谁的AI更容易用到”


    说到底,微软这步棋下得很精明。他们不和OpenAI死磕,而是把Anthropic的Claude也拉进来,让自己的Office全家桶同时支持多个AI。对用户来说,这是好事——选择多了,竞争来了,产品自然会更好用。


  • Karpathy官宣加入Anthropic,AI人才争夺战再起波澜





    Karpathy官宣加入Anthropic,AI人才争夺战再起波澜


    Karpathy官宣加入Anthropic,AI人才争夺战再起波澜

    5月19日晚11点,Andrej Karpathy在X上发了四句话,全球AI社区瞬间炸锅。这位OpenAI联合创始人、前特斯拉AI总监,突然宣布加入了Anthropic。

    Andrej Karpathy
    Andrej Karpathy(图源:36氪)

    一个简短宣布,重磅炸弹投下

    据Anthropic公司称,Karpathy加入后将在该公司最核心的预训练团队工作,负责人是Nicholas Joseph。要知道,Joseph是OpenAI的前核心成员,而Anthropic的创始人Dario Amodei也曾担任OpenAI的研究副总裁。现在,一个”复仇者联盟”已经彻底成型。

    Anthropic称,Karpathy将帮助组建一支新团队,专注于利用Claude本身来加速预训练研究。用AI来加速AI技术的发展,这个研究方向太有趣了。

    “我认为,接下来几年将是大语言模型前沿发展中格外关键、也格外具有塑造性的时期。能加入这里的团队、重新回到研发工作中,我非常兴奋。”——Andrej Karpathy

    从OpenAI到特斯拉,再到Anthropic

    Karpathy的履历不需要多解释。1986年出生于捷克斯洛伐克,2009年多伦多大学计算机科学与物理学双学士学位,2011年不列颠哥伦比亚大学硕士学位,随后在斯坦福大学攻读博士,师从李飞飞。

    2015年博士毕业后加入OpenAI,作为联合创始人之一担任研究科学家。2017年被马斯克”挖角”,加入特斯拉担任AI及自动驾驶视觉总监,领导Autopilot项目。2022年7月从特斯拉离职,2023年短暂回归OpenAI改进GPT-4,2024年再次离开。

    Karpathy职业履历
    Karpathy的职业履历(图源:36氪)

    “就像凯文杜兰特加入73胜的勇士队”

    在Karpathy的官宣帖文下面,广大网友纷纷发来祝福。Anthropic核心开发者、”Claude Code之父”Boris Cherny表示非常欢迎Karpathy的加入。

    有网友评论:”现在的AI实验室感觉越来越像足球俱乐部了……而无疑,现在Anthropic竟然迎来了马拉多纳本人!!!”还有人分析认为,这件事比人们意识到的更重要:赢得AI下一阶段的公司,很可能是那些构建出可以持续学习、改进并扩展的系统的公司。


    新一轮AI军备竞赛开始了

    Karpathy的加入,可以说是给即将上市的Anthropic来了又一次助推,说明了这家顶尖AI公司对科技人才的吸引力。而刚刚结束了与马斯克的诉讼,为上市铺平道路的OpenAI,现在又再次面临了压力。

    由此开始,我们或许将会见证新一轮AI军备竞赛。Anthropic获得了”人才争夺战”的重大胜利,而OpenAI则需要重新思考自己的人才策略。

    AI人才争夺战
    AI人才争夺战(图源:36氪)


  • Transformer 作者开源 2180 亿参数大模型,Apache 2.0 协议随便商用

    Transformer 作者开源 2180 亿参数大模型,Apache 2.0 协议随便商用

    Command A+ 模型架构
    Cohere 发布 Command A+,2180 亿参数 Apache 2.0 开源(图源:36氪)

    2017 年那篇改变世界的《Attention Is All You Need》论文,有个共同作者当时才 20 岁——Aidan Gomez。现在他联合创立的 Cohere 干了件大事:把旗舰模型 Command A+ 用 Apache 2.0 协议开源了。

    这意味着什么?从独立开发者到世界 500 强,随便用、随便改、随便拿去赚钱,不用给 Cohere 交一分钱。

    此前 Cohere 的模型只用 CC-BY-NC 4.0 协议,商用要付费。这次 Command A+ 直接 Apache 2.0,是 Cohere 第一次对旗舰模型彻底开源。

    2180 亿参数,只要 250 亿激活

    Command A+ 用了 MoE(混合专家)架构,总参数 2180 亿,但每次推理只激活 250 亿参数。这是 Cohere Command A 家族的收官之作。

    部署门槛低得离谱:一张 NVIDIA B200 或者两张 H100 就能跑。这对很多企业来说,意味着不用搭 GPU 集群也能用上千亿级模型。

    量化方案也很激进:提供 BF16、FP8、W4A4(4-bit 权重 + 4-bit 激活)三个版本。关键是只把 MoE 专家压到 4-bit,注意力通路保留全精度,再加上量化感知蒸馏技术,官方说量化接近无损。


    原生引用,解决企业最大痛点

    Command A+ 有个很实用的能力:原生引用(Native Citation)。输出时会把每条事实声明直接关联到引用的具体文档或数据库记录,不是事后打标签,是生成时就把出处嵌进去了。

    这对金融、医疗、法律这些强监管行业来说,是解决幻觉风险的一大利器。合规审计时可以直接追溯每句话的来源,不用再猜模型是哪里掏出来的结论。

    多模态也跟上了:支持文本加图像混合输入,能处理扫描发票、图表、技术手册这类图文混合内容。这是 Cohere 第一个多模态推理模型。

    性能表现

    • ²-Bench Telecom(复杂推理):Command A+ 得分 85%,前代只有 37%
    • Terminal-Bench Hard(智能体编码):25%,前代只有 3%
    • AIME 25(数学测试):90%,前代 57%

    VentureBeat 的评测认为,Command A+ 以 250 亿激活参数的体量,纯推理和数学能力可以媲美参数大得多的模型,但深度智能体编码和综合智能广度还是落后于 DeepSeek 这些国内头部开源模型。


    为什么 Apache 2.0 这么重要

    之前 Cohere 的 Command R、Command R+ 用 CC-BY-NC 4.0,只能非商用,企业要商用得买授权。这次换成 Apache 2.0,企业可以把模型权重下载下来,用内部数据微调,部署到私有服务器甚至气隙网络里,完全不依赖 Cohere 的 API 服务。

    这个决策主要是 Cohere 联合创始人 Nick Frost 推动的。他是 Geoffrey Hinton 的得意门生,之前在谷歌大脑多伦多实验室,一直关注模型可解释性和落地能力。这次彻底开源,很明显是冲着企业私有化部署市场去的。

    Cohere 最近还宣布和德国 AI 公司 Aleph Alpha 合并,双方都聚焦政府和大企业的私有化部署需求,不做什么面向大众的 C 端聊天机器人。这条赛道在国内也有不少玩家在跑,但像 Command A+ 这样参数规模加 Apache 2.0 协议的还不多见。

    开源大模型竞争上半场比的是参数规模,下半场比的是企业落地能力。Command A+ 这次把部署门槛、推理成本、数据隐私、供应商绑定这几个企业最痛的点,一次性给了答案。

  • 微软砍掉Claude Code内部分发,AI补贴时代要结束了?

    微软砍掉Claude Code内部分发,AI补贴时代要结束了?

    微软与Claude Code
    连微软都开始算Token账了(图源:36氪)

    这周有个事儿在科技圈传开了:微软取消了内部的 Claude Code 授权。理由很直白——用不起了。

    一家能砸 130 亿美元投资 OpenAI、还给 Anthropic 提供大部分 Azure 云计算资源的公司,居然被 Claude Code 的账单劝退了。这背后的信号,比表面上看起来要强烈得多。

    连微软都嫌贵,那中小公司怎么办?AI 补贴时代正在悄悄落幕,真实的计算账单终于寄到了。

    不只是钱的问题

    事情还有另一层。微软当初给员工开 Claude Code 权限,本意是做基准测试,拿来跟自家的 GitHub Copilot CLI 对比。结果没想到,Claude Code 在内部太受欢迎了,超过九成的工程团队原来都在用 Copilot,现在这个优势被蚕食得厉害。

    这就有意思了。微软一边对外投资 Anthropic,一边对内看着人家的产品把自家工程师都吸引走了。6 月底前强制大家迁回 Copilot CLI,与其说是成本考量,不如说是一次”保家卫国”。

    为了留住用户,GitHub 团队现在压力山大——内部员工的 Bug 报告和反馈,要在几周内全部消化掉,把 Copilot CLI 的能力追上来。有传言说微软曾考虑收购 Cursor 来补短板,后来可能因为监管审查风险放弃了。

    账单来了,之前都是补贴

    这件事更大的背景是:过去半年,Anthropic、OpenAI、Google 都在悄悄提价。很多企业之前假设 AI 成本会一直下降,于是大力建设各种 AI 工作流,结果真实账单来了,年度预算几个月就烧光了。

    Uber 的 CTO 四月份发内部备忘录,说公司在四个月内把 2026 年全年 AI 预算全部烧完——主要就是 Claude Code 在 Uber 内部各工程组织大规模采用导致的。

    现在美国 AI 软件价格过去一年涨了 20% 到 37%,微软旗下的 GitHub 也在所有产品里取消固定费率方案,全面转向按用量计费。补贴时代结束了,接下来就是真金白银的账本。


    两条路,都不好走

    接下来只有两种可能:要么企业为了控制预算大幅减少 AI 使用,直接拖慢各大 AI 实验室的收入增长,影响它们的高估值和 IPO 计划;要么实验室继续降价补贴,把损失自己扛下来,但在最差的时机让单位经济性变得更糟糕。

    不管走哪条路,最终结果都一样——盈利能力下降,总有人要承担减值损失。AI 的热钱时代,正在被真实的商业账本取代。

    Claude Code 团队也看到了这个问题,马上要推出 /usage 命令,让用户直接查看各类组件的 Token 使用明细,看清楚到底哪些 Skill、Agent、MCP 在吃掉预算。有了透明度,团队才能优化提示词、禁用不必要的工具、控制成本。这对重度用户来说是个好消息。

    说到底,微软这波操作表面上是在控成本,实际上是在护地盘。Claude Code 太好用了,好用到连微软自己的工程师都不想用自家产品。接下来几个月,Copilot CLI 能不能追上 Claude Code 的水准,会是个很精彩的观察窗口。

  • 作家与AI的”有毒关系”:新书被曝6处AI造假引用,他还要继续用

    作家Steven Rosenbaum的新书《The Future of Truth》遇到了大麻烦。有读者发现,这本书里至少有6处引用是AI生成的虚假内容——这些引文看起来很真,但实际上是AI编的。

    这件事曝光后,Rosenbaum的反应很有意思。一开始,他表示愿意承担全部责任。但后来在接受《大西洋月刊》采访时,他把责任推给了AI聊天机器人,说AI”搞砸了这本书”(fucked up the book)。

    AI写作争议
    AI写作的伦理问题越来越突出(图片来源:The Verge)

    “令人愉快的写作伙伴”

    更让人无语的是,Rosenbaum在接受Ars Technica的另一次采访中表示,他仍然计划在自己的写作中使用AI。

    他是这么形容AI的:”令人愉悦的写作伙伴,它有着奇特的创造力,狡黠又与众不同,但随后它背叛你的方式真的非常糟糕。”

    这段话听起来像是在描述一段 toxic relationship(有毒关系)——你觉得对方有时候很好,但有时候又会狠狠坑你一把。

    AI是”令人愉悦的写作伙伴,但也会以非常糟糕的方式背叛你”。

    这不是孤例

    Rosenbaum的事件,其实是AI写作乱象的一个缩影。之前我们已经看到过类似的事情:

    • 《格兰塔》英联邦短篇小说奖获奖作品被质疑是AI生成的
    • 诺奖得主奥尔加·托卡尔丘克承认用AI辅助创作
    • AI检测工具Pangram本身也存在误判问题

    文学界对AI写作还没准备好。出版行业、文学奖项评审体系,都还没建立起应对AI生成内容的有效规范。


    AI写作的核心问题

    Rosenbaum的case暴露了AI辅助写作的几个核心问题:

    第一,AI会编造。 大语言模型有个臭名昭著的特性:它们会自信满满地编造看起来很真的内容,包括引用、数据、事实。如果你不逐条核实,就很容易中招。

    第二,作者责任边界模糊。 Rosenbaum一开始说要负责,后来又说AI搞砸了。这反映了很多AI辅助写作者的心态:用AI的时候觉得是自己在创作,出问题的时候觉得是AI的锅。

    第三,读者信任一旦破损很难修复。 一本书被发现有AI造假引用,读者以后还会信任这个作者吗?出版方还会愿意跟他合作吗?

    还要继续用AI吗?

    Rosenbaum的回答是:还要用。

    这其实也不奇怪。很多写作者发现,AI在 brainstorming、整理思路、快速生成草稿方面确实有用。问题不在于”用不用”,而在于”怎么用”。

    如果你要用AI辅助写作,至少应该做到:

    • 所有AI生成的内容都要人工核实,特别是引用和事实
    • 在书中明确披露哪些部分用了AI
    • 不要把AI的产出直接当成的自己的原创
    • 出问题时勇于承担责任,而不是甩锅给AI

    Rosenbaum的事件,给所有考虑用AI辅助写作的人提了个醒:AI可以是工具,但不应该是偷懒的借口。只要你用它,最终的责任就在你身上,而不是在”背叛你的伙伴”身上。

  • Ferrari联手IBM用AI打造F1超级粉丝:数据驱动的赛车新体验

    两年前,IBM发现在体育合作伙伴阵营中有一个明显的缺口——一级方程式赛车(F1)。如今F1已经是全球最受欢迎的运动之一,特别是在美国,Netflix的纪录片《极速求生》把车手们的日常生活搬上了屏幕,让他们变成了主流名人。

    这项以技术为核心的运动,也成了AWS、甲骨文、Anthropic等科技公司的热门合作领域。这些公司和车队合作,既为了赞助曝光,也为车队提供数据分析、AI工具,帮他们在竞争中多抢零点几秒。

    Ferrari F1赛车与IBM AI技术
    Ferrari与IBM合作,用AI升级粉丝应用体验(图片来源:IBM)

    为什么是Ferrari?

    IBM体育与娱乐合作副总裁Kameryn Stanhouse在接受TechCrunch采访时表示:”他们是历史上获胜次数最多的车队。”

    这次合作的核心,和其他车队与科技巨头合作的原因一样:获得更先进的技术解决方案,尤其是能帮他们充分利用人工智能的技术。Stanhouse说,体育的最大优势之一是有大量数据可用,这些数据可以用来帮人们熟悉AI。

    “他们实际上看到了AI如何为他们服务,”她谈到了AI在体育内容叙事中的应用。

    数据变故事:每秒百万个数据点

    IBM与Ferrari的合作围绕”叙事”这个核心展开,通过升级Ferrari粉丝应用的底层技术,提升粉丝参与度。为此,Ferrari专门设立了一个新职位——”粉丝发展负责人”,聘请了Stefano Pallard担任。

    他表示,车队想要解决的挑战不仅是触达粉丝,更是”让每一位粉丝都感觉到我们了解他们”。赛车在比赛期间每秒会处理数百万个数据点,捕捉车手和赛车的每一个动作。把这些数据转化为粉丝可以参与的内容,正是先进企业AI帮助企业更好地与消费者互动的方式之一。

    在F1的11支车队中,Ferrari是为数不多拥有独立粉丝应用运营策略的车队(其他还有迈凯伦、威廉姆斯等),而不是依靠社交媒体或F1官方平台。这也显示出这项运动正慢慢开始利用自己不断增长的全球粉丝群体。

    新应用有什么不同?

    这次Ferrari应用的更新有一些简单的改变,比如增加了意大利语版本。虽然Ferrari是意大利公司,很多粉丝都是意大利人,但在与IBM合作之前,其粉丝应用并不支持意大利语。

    Stanhouse表示,旧的Ferrari粉丝应用只是人们查找比赛详情后就离开的地方。而新应用包含了:

    • 粉丝可以在应用内与其他人互动的游戏
    • AI撰写的比赛摘要
    • 更多关于车队和车手的幕后故事
    • 预测功能
    • 一个供粉丝提问的AI助手

    “车手只有两位,但你知道换一次轮胎需要24个人在2秒内同时工作吗?”Stanhouse补充道,叙事可以帮粉丝拉近与车队的距离。


    粉丝画像变了:75%是新女性粉丝

    应用开发者还考虑到了Ferrari粉丝群体比五年前更加多样化的情况。F1去年发布的统计数据显示,75%的新粉丝是女性,其中很多是Z世代。

    女性粉丝的一个特别关注点是F1学院(F1 Academy),这是一个全女性赛车系列赛,旨在培养下一代女性车手。但这些新粉丝和老粉丝一样,都在追求一件事——更多内容。

    “她们要求更多数据、更多洞察、更多功能,我们必须能够满足这些需求,”Pallard说。

    Stanhouse表示,与IBM开发的其他体育应用不同,Ferrari应用的核心重点是叙事,因为车队希望粉丝全年都能保持参与,而不是像大师赛这类赛事那样一年仅参与几周。她表示,自IBM参与以来,应用参与度数据呈上升趋势,例如比赛周末的参与度提升了62%。

    Pallard表示,车队随后会使用AI分析应用中的参与信号,比如用户喜欢阅读哪些内容、粉丝发送消息的情绪倾向。

    “这有助于我们了解哪些内容最能引起Ferrari粉丝(Tifosi,Ferrari粉丝的昵称)的共鸣,并直接指导我们如何塑造叙事、如何交付内容,”他说。

    车队希望进一步深入个性化领域,打造更具沉浸感的粉丝体验。与IBM合作的未来五年愿景是,让每一位粉丝都感觉这个体验是为他们量身打造的,无论他们已经追随我们30年,还是才接触30天。

    “这才是建立持久忠诚度的关键。”

  • Cursor Composer 2.5来了:不换底座,性能硬刚Claude Opus 4.7

    Cursor这次真的被逼急了。5月18日,他们发布了自研编程模型Composer 2.5,口号很直接:不换底座,不涨价,性能硬刚Claude Opus 4.7和GPT-5.5。

    基于Kimi K2.5,后训练投入是上代的25倍

    Composer 2.5没有换基础模型,仍然沿用月之暗面的Kimi K2.5。Cursor把85%的计算量砸进了后训练——自行完成的训练与强化学习优化。

    合成任务数据量是上一代的25倍。其中一个典型训练方法是”功能删除”:从可运行代码库中删除某项功能,要求模型重新实现,用可验证的结果作为奖励信号。

    Cursor内部已有35%的合并PR由自主Agent创建。Composer 2.5是他们对”Claude Code抢走编程助手老大位置”的直接反击。

    成绩接近Claude Opus 4.7,成本只有1/10

    先看基准测试成绩:

    • SWE-Bench Multilingual:Composer 2.5得79.8%,Claude Opus 4.7得80.5%,GPT-5.5得77.8%
    • Terminal-Bench 2.0:Composer 2.5得69.3%,Claude Opus 4.7得69.4%,GPT-5.5得82.7%
    • CursorBench v3.1:Composer 2.5得63.2%,Claude Opus 4.7(最高设置)得64.8%

    综合来看,Composer 2.5的性能已经接近Claude Opus 4.7,但成本只有竞品的1/10

    定价:输入0.5美元/百万token,输出2.5美元/百万token。在CursorBench上达到63%成绩时,单任务平均成本低于1美元;而Opus 4.7、GPT-5.5达到类似或更差结果时,单任务成本高出数美元。


    技术亮点:带文本反馈的定向强化学习

    Composer 2.5有几个值得说一下的技术亮点:

    带文本反馈的定向强化学习。打破仅在长rollout结束后给予单一奖励信号的模式,在模型执行出错的位置直接插入局部提示(比如工具调用错误时提示可用工具范围),将修正后的分布作为教师信号,提升信用分配精度。

    大规模合成数据。使用的合成任务数量是上一代的25倍。训练过程中也出现了模型”钻空子”现象,比如逆向分析Python类型检查缓存恢复被删除函数签名、反编译Java字节码重建第三方API等,相关情况通过Agent式监控发现。

    Sharded Muon与双mesh HSDP。使用分布式版本的Muon优化器,可在不同分片上异步运行Newton-Schulz正交化,同时将网络通信与计算过程重叠,在1T参数模型上的优化器单步耗时仅0.2秒。

    竞争压力是真实存在的

    Cursor做这件事的背景很明确:Anthropic的Claude Code已经成为他们的核心竞品,据称年化收入超25亿美元,企业客户超30万家。

    如果Cursor继续依赖Anthropic的模型能力,需要向其支付推理成本,处于被动竞争地位。自研模型是Cursor摆脱依赖的必要动作。

    截至2025年年中,Cursor每天生成10亿行被接受的代码,67%的财富500强企业是其客户。但市场关注点已从IDE体验转向自主编程Agent能力,Composer 2.5是Cursor对赛道变化的回应。

  • 阿里Qwen 3.7-Max来了:国产大模型首次冲进全球前15

    5月20日,阿里云峰会上,阿里巴巴正式发布了千问新一代旗舰模型Qwen 3.7-Max。这次不是简单的版本号迭代,而是在全球AI模型排行榜上,中国模型第一次稳定地站到了第一梯队。

    Arena排名#13,数学能力全球第7

    先说成绩。Qwen 3.7-Max-Preview在Arena(前大模型竞技场)的全球综合排名是第13位,数学领域排到第7,代码领域第10。这个成绩让它成了当时排名最高的中国闭源模型。

    阿里巴巴的实验室排名也因此拉升到了全球第6。这个意义不只是数字好看——它意味着国产大模型在通用能力上,已经逐步逼近海外头部厂商。

    Qwen 3.7-Max支持100万token上下文,开启扩展思考模式后,可以连续自主运行35小时、调用超过1000次工具而性能不衰减。

    闭源旗舰+开源次旗舰的双轨策略

    阿里这次继续沿用”开源次旗舰+闭源旗舰”的商业化路线。Qwen 3.7分为两个版本:

    • Qwen 3.7 Plus:开源,面向开发者,适合本地推理场景
    • Qwen 3.7 Max:闭源,付费使用,面向企业级高要求商用场景

    这个策略很聪明。开源版本维持社区影响力,闭源旗舰版探索商业化变现。对国内其他AI厂商来说,这也是一条可以参考的落地路径。

    实际用起来怎么样

    从实测来看,Qwen 3.7-Max有几个比较明显的特点:

    代码生成偏简洁。在保障功能正确性的前提下,能用更少代码实现相同功能,适合生产环境维护。逻辑严谨性也优于同梯队模型。

    数学能力是真的强。处理高阶数学问题时,准确率明显高于同梯队其他模型,支持多模算术交叉验证,符合它数学能力全球第7的排名。

    文化适配性好。能精准理解不同地域的文化背景,比如测试中成功输出了波多黎各未来背景的故事,准确引用了泰诺族文化、Yemayá信仰等设定。


    定价和可用性

    预览阶段还没有公布官方API定价。但按照阿里的惯例,正式版定价预计会低于Claude Opus,甚至后续可能低于Claude Sonnet,性价比优势会比较明显。

    目前Qwen 3.7-Max-Preview已经在Qwen Chat和Arena AI上线,正式版预计近期就会全面开放API访问。

  • 这个开源看板让AI代理并行干活,每个代理住在独立Git分支里

    如果你用过AI编程助手,大概率会遇到一个效率瓶颈——同一时间只能让一个代理干活。改这个文件的时候,另一个任务只能排队等着。Kanbots把一个看似简单的想法做成了产品:让多张看板卡片同时跑不同的AI代理,每个代理住在自己独立的Git工作树里,互不干扰。

    看板+AI代理,拼在一起是什么体验

    Kanbots本质上是一个桌面端看板工具(类似Trello,但是本地优先、开源、MIT许可证),核心差异点是每张卡片都可以单独调度一个AI代理。你可以在「收件箱」里扔进去十个需求卡片,然后看着代理们并行地把它们各自推进到「进行中」「评审」「待处理」。

    代理不是在同一个代码目录里打架,而是每个都运行在独立的Git工作树(worktree)里,对应独立的kanbots/issue-N分支。你主分支的代码,代理碰不到。

    每个代理活在属于自己的Git分支里,改坏了也不影响主分支——这个设计让「让AI大胆改代码」变成了一件放心的事。

    自动驾驶模式:设好预算,让代理自己干活

    Kanbots有一个叫自动驾驶(Autopilot)的模式,可能是最受欢迎的功能。你可以配置多个角色人设——比如「产品经理解需求」「高级开发写代码」「测试工程师补单测」,然后设置并行数量(最多4个)和成本上限。

    启动之后,代理会自动把父任务拆成子任务、更新待办列表、跑测试和lint检查。遇到需要人工决策的时候,它会暂停,弹出带编号的选项等你选。整个过程的成本实时统计,到预算了自动停。

    • 支持Claude Code和Codex两种AI编程CLI,开箱即用
    • 内置预推送钩子,代理无法自行发布代码,必须人工确认
    • 成本可控,支持按单次运行、单张卡片、整个项目三个维度统计
    • 所有决策记录可追溯,代理不是黑盒

    实际用起来是什么感觉

    一个典型场景:Sentry捕获到前端报错,你点一下导入看板,调度代理去修。代理在独立工作树里改代码、跑测试、lint检查,全部通过后暂停,等你确认。确认完一键提交草稿PR。全程你不需要手动改一行代码。

    另一个场景是「先写规格再开发」:给卡片打上需求描述,代理先跑/spec命令细化验收标准,你审批完再开始写代码。相当于给AI代理加了一个「需求评审」环节。

    本地优先,数据不离开你的设备

    Kanbots强调本地优先——所有数据存在代码仓库下的.kanbots目录里,默认不收集遥测,不需要注册账号,代码不会离开本地设备。这一点对企业开发者尤其重要。

    当然也有云版本(每座19美元/月),多了团队实时协作、Slack通知、SSO这些企业功能。但核心的单人开发功能,开源桌面版全部都有。

    有意思的是,Kanbots本身是跑在Kanbots看板上开发的(官方称之为「dogfooding」)。一个做AI代理看板的工具,用自己的看板来管理开发任务——这件事本身就挺有说服力的。

  • AI代理开发不再碎片化:Superpowers框架把「技能模块」做成了乐高

    如果你最近试着搭过一个编程AI代理,大概率会遇到一个尴尬的问题——工具很多,但拼不到一起。要么对着文档抄提示词,要么把一堆零散脚本硬凑成一个「代理」,改一丁点需求就要推翻重来。obra在GitHub开源的Superpowers项目,想用「方法论+可组合技能」的思路,把这件事从手工活变成工程活。

    碎片化开发的痛点,它想一次解决

    现在的AI代理开发,多少有点像2010年之前的移动互联网——热闹,但混乱。大家都在做代理,但每个人对「什么是好的代理」理解不一样,实现方式更是千差万别。有人把所有逻辑写进一个超长提示词,有人用LangChain拼流水线,有人直接调API硬编。

    Superpowers的核心判断是:问题不在模型能力不够,而在开发方式本身缺乏标准。它不给你一个「万能代理」,而是提供一套可复用、可组合、可验证的开发方法论。

    「代理开发应该从『依赖模型黑盒』转向『可定义、可验证的流程设计』」——这是Superpowers最核心的设计理念。

    可组合技能架构,像搭乐高一样搭代理

    框架把代理能力拆成「原子技能模块」——每个模块负责一件具体的事,比如「分析代码库结构」「生成单元测试」「解释报错信息」。这些模块可以单独测试、单独维护,也能按需组合。

    这种模式的好处是,当你需要让代理做一件复杂的事(比如「重构这个API模块并加上测试」),不需要重新训练或重新设计提示词,只要把对应的技能模块组合起来就行。代理的行为也因此变得更可预测——你知道它在每一步调用的什么技能,而不是对着一段黑盒输出猜它「想干什么」。

    • 技能模块独立可测,改一个不影响其他
    • 支持跨项目复用,慢慢攒出自己的「技能库」
    • 代理行为可追踪,哪一步调了什么技能一目了然

    初始指令层:让代理行为可控

    Superpowers另一个有意思的设计,是用「初始指令集」作为代理的逻辑入口,而不是直接把任务丢给底层大模型。这套指令定义了代理怎么解析目标、什么时候调哪个技能、遇到歧义怎么处理。

    这样做的一个直接好处是,代理的输出稳定性大幅提升。你不用担心换一个模型,代理的行为就完全跑偏;只要初始指令层保持一致,代理在不同模型上的表现是可以预期的。

    从实验脚本到生产应用,就差这一套方法论

    过去一年多,我们看到无数「代理Demo」——能跑通一个特定任务,但换一个场景就跪。Superpowers想解决的,就是把这个「Demo到生产」的鸿沟填平。它提供的不只是代码框架,而是从设计、开发、组合、验证到部署的完整流程规范。

    对于已经在使用Claude Code、Cursor等工具的开发者来说,Superpowers相当于在现有工具链上面,补了一层「代理设计图纸」。你可以继续用熟悉的CLI,但代理的能力组织和复用方式会系统性地升级。