Transformer 作者开源 2180 亿参数大模型,Apache 2.0 协议随便商用
2017 年那篇改变世界的《Attention Is All You Need》论文,有个共同作者当时才 20 岁——Aidan Gomez。现在他联合创立的 Cohere 干了件大事:把旗舰模型 Command A+ 用 Apache 2.0 协议开源了。
这意味着什么?从独立开发者到世界 500 强,随便用、随便改、随便拿去赚钱,不用给 Cohere 交一分钱。
此前 Cohere 的模型只用 CC-BY-NC 4.0 协议,商用要付费。这次 Command A+ 直接 Apache 2.0,是 Cohere 第一次对旗舰模型彻底开源。
2180 亿参数,只要 250 亿激活
Command A+ 用了 MoE(混合专家)架构,总参数 2180 亿,但每次推理只激活 250 亿参数。这是 Cohere Command A 家族的收官之作。
部署门槛低得离谱:一张 NVIDIA B200 或者两张 H100 就能跑。这对很多企业来说,意味着不用搭 GPU 集群也能用上千亿级模型。
量化方案也很激进:提供 BF16、FP8、W4A4(4-bit 权重 + 4-bit 激活)三个版本。关键是只把 MoE 专家压到 4-bit,注意力通路保留全精度,再加上量化感知蒸馏技术,官方说量化接近无损。
原生引用,解决企业最大痛点
Command A+ 有个很实用的能力:原生引用(Native Citation)。输出时会把每条事实声明直接关联到引用的具体文档或数据库记录,不是事后打标签,是生成时就把出处嵌进去了。
这对金融、医疗、法律这些强监管行业来说,是解决幻觉风险的一大利器。合规审计时可以直接追溯每句话的来源,不用再猜模型是哪里掏出来的结论。
多模态也跟上了:支持文本加图像混合输入,能处理扫描发票、图表、技术手册这类图文混合内容。这是 Cohere 第一个多模态推理模型。
性能表现
- ²-Bench Telecom(复杂推理):Command A+ 得分 85%,前代只有 37%
- Terminal-Bench Hard(智能体编码):25%,前代只有 3%
- AIME 25(数学测试):90%,前代 57%
VentureBeat 的评测认为,Command A+ 以 250 亿激活参数的体量,纯推理和数学能力可以媲美参数大得多的模型,但深度智能体编码和综合智能广度还是落后于 DeepSeek 这些国内头部开源模型。
为什么 Apache 2.0 这么重要
之前 Cohere 的 Command R、Command R+ 用 CC-BY-NC 4.0,只能非商用,企业要商用得买授权。这次换成 Apache 2.0,企业可以把模型权重下载下来,用内部数据微调,部署到私有服务器甚至气隙网络里,完全不依赖 Cohere 的 API 服务。
这个决策主要是 Cohere 联合创始人 Nick Frost 推动的。他是 Geoffrey Hinton 的得意门生,之前在谷歌大脑多伦多实验室,一直关注模型可解释性和落地能力。这次彻底开源,很明显是冲着企业私有化部署市场去的。
Cohere 最近还宣布和德国 AI 公司 Aleph Alpha 合并,双方都聚焦政府和大企业的私有化部署需求,不做什么面向大众的 C 端聊天机器人。这条赛道在国内也有不少玩家在跑,但像 Command A+ 这样参数规模加 Apache 2.0 协议的还不多见。
开源大模型竞争上半场比的是参数规模,下半场比的是企业落地能力。Command A+ 这次把部署门槛、推理成本、数据隐私、供应商绑定这几个企业最痛的点,一次性给了答案。
发表回复