Transformer 作者开源 2180 亿参数大模型，Apache 2.0 协议随便商用

作者：

在

2017 年那篇改变世界的《Attention Is All You Need》论文，有个共同作者当时才 20 岁——Aidan Gomez。现在他联合创立的 Cohere 干了件大事：把旗舰模型 Command A+ 用 Apache 2.0 协议开源了。

这意味着什么？从独立开发者到世界 500 强，随便用、随便改、随便拿去赚钱，不用给 Cohere 交一分钱。

此前 Cohere 的模型只用 CC-BY-NC 4.0 协议，商用要付费。这次 Command A+ 直接 Apache 2.0，是 Cohere 第一次对旗舰模型彻底开源。

Command A+ 用了 MoE（混合专家）架构，总参数 2180 亿，但每次推理只激活 250 亿参数。这是 Cohere Command A 家族的收官之作。

部署门槛低得离谱：一张 NVIDIA B200 或者两张 H100 就能跑。这对很多企业来说，意味着不用搭 GPU 集群也能用上千亿级模型。

量化方案也很激进：提供 BF16、FP8、W4A4（4-bit 权重 + 4-bit 激活）三个版本。关键是只把 MoE 专家压到 4-bit，注意力通路保留全精度，再加上量化感知蒸馏技术，官方说量化接近无损。

Command A+ 有个很实用的能力：原生引用（Native Citation）。输出时会把每条事实声明直接关联到引用的具体文档或数据库记录，不是事后打标签，是生成时就把出处嵌进去了。

这对金融、医疗、法律这些强监管行业来说，是解决幻觉风险的一大利器。合规审计时可以直接追溯每句话的来源，不用再猜模型是哪里掏出来的结论。

多模态也跟上了：支持文本加图像混合输入，能处理扫描发票、图表、技术手册这类图文混合内容。这是 Cohere 第一个多模态推理模型。

VentureBeat 的评测认为，Command A+ 以 250 亿激活参数的体量，纯推理和数学能力可以媲美参数大得多的模型，但深度智能体编码和综合智能广度还是落后于 DeepSeek 这些国内头部开源模型。

之前 Cohere 的 Command R、Command R+ 用 CC-BY-NC 4.0，只能非商用，企业要商用得买授权。这次换成 Apache 2.0，企业可以把模型权重下载下来，用内部数据微调，部署到私有服务器甚至气隙网络里，完全不依赖 Cohere 的 API 服务。

这个决策主要是 Cohere 联合创始人 Nick Frost 推动的。他是 Geoffrey Hinton 的得意门生，之前在谷歌大脑多伦多实验室，一直关注模型可解释性和落地能力。这次彻底开源，很明显是冲着企业私有化部署市场去的。

Cohere 最近还宣布和德国 AI 公司 Aleph Alpha 合并，双方都聚焦政府和大企业的私有化部署需求，不做什么面向大众的 C 端聊天机器人。这条赛道在国内也有不少玩家在跑，但像 Command A+ 这样参数规模加 Apache 2.0 协议的还不多见。

开源大模型竞争上半场比的是参数规模，下半场比的是企业落地能力。Command A+ 这次把部署门槛、推理成本、数据隐私、供应商绑定这几个企业最痛的点，一次性给了答案。

评论