阿里千问Qwen3.7-Max发布:从对话模型到工程代理的关键一跃

三个月连更三次,千问在争什么

5月20日,阿里巴巴在杭州发布了千问新一代旗舰模型Qwen3.7-Max。如果只看标题,这像是一次常规的模型迭代——但从最近三个月的节奏来看,千问正在以不太常见的速度连续推出新版本。

3月20日,Qwen3.5-Max-Preview亮相;4月20日,Qwen3.6-Max-Preview发布;5月20日,Qwen3.7-Max正式登场。三个月、三个大版本,这个节奏即便放在全球大模型厂商里也不算慢。背后反映的是一个明确判断:模型竞争的重点正在转移,从”谁的参数大、榜单分数高”,转向”模型能不能真正进入工作流,稳定执行复杂任务”。

Agent能力成了新的主战场

Qwen3.7-Max延续了千问3.x系列的一个明显转向:强化Agent能力。这不是一个抽象的方向——具体体现在编程、长上下文、工具调用、跨框架兼容和长程任务处理这几个维度上。

在第三方机构Arena的全球大模型盲测总榜中,Qwen3.7-Max超过了Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与GPT、Claude、Gemini等国际顶尖模型接近,位列国产模型第一。

Qwen3.7-Max在MCP-Atlas、MCP-Mark、SkillBench等现实能力测试中表现优异,超过GLM-5.1、Kimi-K2.6等模型,创下国产模型新高。

编程智能体能力的提升尤为明显。在SWE-Pro、SWE-Multilingual、Terminal Bench 2.0-Terminus等测评中,Qwen3.7-Max较Qwen3.6-Plus有大幅提升,并超过了DeepSeek-v4-pro-Max、Claude-Opus4.6、Kimi-K2.6等模型。

一次完整的工程任务:35小时、上千次工具调用

阿里内部做了一个挺有说服力的测试:把千问3.7放到一个陌生的新硬件平台上(平头哥真武M890),任务是优化一个生产级注意力内核算子。

模型没有现成的性能profile,没有硬件文档,也没有示例实现——只拿到了任务描述、SGLang+Triton参考代码和评测脚本。在这个环境中,千问3.7连续工作了35小时,执行了数百次内核评估和上千次工具调用,完成了代码编写、编译、性能分析和迭代优化的完整流程。最终,内核速度在参考实现基础上提升了一个数量级。

更值得注意的细节是:在连续运行30小时后,模型仍然能发现新的优化空间。这说明它并不是在完成一次性的指令执行,而是在较长时间内保持了目标感,能根据反馈调整路径。

这个测试背后的意图很明显:当大模型具备较强的推理、编程和工具调用能力,并被放入真实的工程环境中,它有机会承担过去需要专业工程师长时间推进的复杂任务。

阿里的真正优势:场景和基础设施

千问的特殊性在于,阿里拥有大量真实的业务和基础设施场景。芯片(平头哥)、云(阿里云)、数据库、电商、物流、支付、出行、本地生活——这些都可以为Agent提供复杂的任务环境。场景既能测试模型,也能为模型迭代提供反馈数据。

2026年3月,阿里成立了Alibaba Token Hub(ATH),由吴泳铭直接负责。这个调整的背景是:企业使用AI的方式正在变化。过去买的是算力时长,现在消耗的是Token——模型处理任务、生成内容、调用工具、完成工作的能力,最终都会体现在Token使用上。

公开信息显示,阿里AI模型和应用服务ARR已突破80亿元,百炼MaaS开发平台客户数截至2026年3月同比增长8倍,覆盖电商、金融、制造等多个行业。

在这个布局里,Qwen3.7-Max不只是一次模型能力更新,而是阿里把”芯—云—模型—推理”这条链路进一步打通的一个节点。模型越强、推理越快、成本越低,Agent越容易在企业中规模化应用——这个逻辑决定了下一阶段大模型竞争的重心。


📎 原文来源:阿里发布新一代千问旗舰模型Qwen3.7-Max,登顶最佳国产模型 — InfoQ

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注