Transformer 作者开源 2180 亿参数大模型,Apache 2.0 协议随便商用

Transformer 作者开源 2180 亿参数大模型,Apache 2.0 协议随便商用

Command A+ 模型架构
Cohere 发布 Command A+,2180 亿参数 Apache 2.0 开源(图源:36氪)

2017 年那篇改变世界的《Attention Is All You Need》论文,有个共同作者当时才 20 岁——Aidan Gomez。现在他联合创立的 Cohere 干了件大事:把旗舰模型 Command A+ 用 Apache 2.0 协议开源了。

这意味着什么?从独立开发者到世界 500 强,随便用、随便改、随便拿去赚钱,不用给 Cohere 交一分钱。

此前 Cohere 的模型只用 CC-BY-NC 4.0 协议,商用要付费。这次 Command A+ 直接 Apache 2.0,是 Cohere 第一次对旗舰模型彻底开源。

2180 亿参数,只要 250 亿激活

Command A+ 用了 MoE(混合专家)架构,总参数 2180 亿,但每次推理只激活 250 亿参数。这是 Cohere Command A 家族的收官之作。

部署门槛低得离谱:一张 NVIDIA B200 或者两张 H100 就能跑。这对很多企业来说,意味着不用搭 GPU 集群也能用上千亿级模型。

量化方案也很激进:提供 BF16、FP8、W4A4(4-bit 权重 + 4-bit 激活)三个版本。关键是只把 MoE 专家压到 4-bit,注意力通路保留全精度,再加上量化感知蒸馏技术,官方说量化接近无损。


原生引用,解决企业最大痛点

Command A+ 有个很实用的能力:原生引用(Native Citation)。输出时会把每条事实声明直接关联到引用的具体文档或数据库记录,不是事后打标签,是生成时就把出处嵌进去了。

这对金融、医疗、法律这些强监管行业来说,是解决幻觉风险的一大利器。合规审计时可以直接追溯每句话的来源,不用再猜模型是哪里掏出来的结论。

多模态也跟上了:支持文本加图像混合输入,能处理扫描发票、图表、技术手册这类图文混合内容。这是 Cohere 第一个多模态推理模型。

性能表现

  • ²-Bench Telecom(复杂推理):Command A+ 得分 85%,前代只有 37%
  • Terminal-Bench Hard(智能体编码):25%,前代只有 3%
  • AIME 25(数学测试):90%,前代 57%

VentureBeat 的评测认为,Command A+ 以 250 亿激活参数的体量,纯推理和数学能力可以媲美参数大得多的模型,但深度智能体编码和综合智能广度还是落后于 DeepSeek 这些国内头部开源模型。


为什么 Apache 2.0 这么重要

之前 Cohere 的 Command R、Command R+ 用 CC-BY-NC 4.0,只能非商用,企业要商用得买授权。这次换成 Apache 2.0,企业可以把模型权重下载下来,用内部数据微调,部署到私有服务器甚至气隙网络里,完全不依赖 Cohere 的 API 服务。

这个决策主要是 Cohere 联合创始人 Nick Frost 推动的。他是 Geoffrey Hinton 的得意门生,之前在谷歌大脑多伦多实验室,一直关注模型可解释性和落地能力。这次彻底开源,很明显是冲着企业私有化部署市场去的。

Cohere 最近还宣布和德国 AI 公司 Aleph Alpha 合并,双方都聚焦政府和大企业的私有化部署需求,不做什么面向大众的 C 端聊天机器人。这条赛道在国内也有不少玩家在跑,但像 Command A+ 这样参数规模加 Apache 2.0 协议的还不多见。

开源大模型竞争上半场比的是参数规模,下半场比的是企业落地能力。Command A+ 这次把部署门槛、推理成本、数据隐私、供应商绑定这几个企业最痛的点,一次性给了答案。

📎 原文来源:36氪 – 20岁写出Transformer的人,真开源了2180亿大模型

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注