阿里千问Qwen3.7-Max发布：从对话模型到工程代理的关键一跃

作者：

在

三个月连更三次，千问在争什么

5月20日，阿里巴巴在杭州发布了千问新一代旗舰模型Qwen3.7-Max。如果只看标题，这像是一次常规的模型迭代——但从最近三个月的节奏来看，千问正在以不太常见的速度连续推出新版本。

3月20日，Qwen3.5-Max-Preview亮相；4月20日，Qwen3.6-Max-Preview发布；5月20日，Qwen3.7-Max正式登场。三个月、三个大版本，这个节奏即便放在全球大模型厂商里也不算慢。背后反映的是一个明确判断：模型竞争的重点正在转移，从”谁的参数大、榜单分数高”，转向”模型能不能真正进入工作流，稳定执行复杂任务”。

Agent能力成了新的主战场

Qwen3.7-Max延续了千问3.x系列的一个明显转向：强化Agent能力。这不是一个抽象的方向——具体体现在编程、长上下文、工具调用、跨框架兼容和长程任务处理这几个维度上。

在第三方机构Arena的全球大模型盲测总榜中，Qwen3.7-Max超过了Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，与GPT、Claude、Gemini等国际顶尖模型接近，位列国产模型第一。

Qwen3.7-Max在MCP-Atlas、MCP-Mark、SkillBench等现实能力测试中表现优异，超过GLM-5.1、Kimi-K2.6等模型，创下国产模型新高。

编程智能体能力的提升尤为明显。在SWE-Pro、SWE-Multilingual、Terminal Bench 2.0-Terminus等测评中，Qwen3.7-Max较Qwen3.6-Plus有大幅提升，并超过了DeepSeek-v4-pro-Max、Claude-Opus4.6、Kimi-K2.6等模型。

一次完整的工程任务：35小时、上千次工具调用

阿里内部做了一个挺有说服力的测试：把千问3.7放到一个陌生的新硬件平台上（平头哥真武M890），任务是优化一个生产级注意力内核算子。

模型没有现成的性能profile，没有硬件文档，也没有示例实现——只拿到了任务描述、SGLang+Triton参考代码和评测脚本。在这个环境中，千问3.7连续工作了35小时，执行了数百次内核评估和上千次工具调用，完成了代码编写、编译、性能分析和迭代优化的完整流程。最终，内核速度在参考实现基础上提升了一个数量级。

更值得注意的细节是：在连续运行30小时后，模型仍然能发现新的优化空间。这说明它并不是在完成一次性的指令执行，而是在较长时间内保持了目标感，能根据反馈调整路径。

这个测试背后的意图很明显：当大模型具备较强的推理、编程和工具调用能力，并被放入真实的工程环境中，它有机会承担过去需要专业工程师长时间推进的复杂任务。

阿里的真正优势：场景和基础设施

千问的特殊性在于，阿里拥有大量真实的业务和基础设施场景。芯片（平头哥）、云（阿里云）、数据库、电商、物流、支付、出行、本地生活——这些都可以为Agent提供复杂的任务环境。场景既能测试模型，也能为模型迭代提供反馈数据。

2026年3月，阿里成立了Alibaba Token Hub（ATH），由吴泳铭直接负责。这个调整的背景是：企业使用AI的方式正在变化。过去买的是算力时长，现在消耗的是Token——模型处理任务、生成内容、调用工具、完成工作的能力，最终都会体现在Token使用上。

公开信息显示，阿里AI模型和应用服务ARR已突破80亿元，百炼MaaS开发平台客户数截至2026年3月同比增长8倍，覆盖电商、金融、制造等多个行业。

在这个布局里，Qwen3.7-Max不只是一次模型能力更新，而是阿里把”芯—云—模型—推理”这条链路进一步打通的一个节点。模型越强、推理越快、成本越低，Agent越容易在企业中规模化应用——这个逻辑决定了下一阶段大模型竞争的重心。

📎 原文来源：阿里发布新一代千问旗舰模型Qwen3.7-Max，登顶最佳国产模型 — InfoQ

AI AI Agent AI技术 AI编程千问

阿里千问Qwen3.7-Max发布：从对话模型到工程代理的关键一跃

三个月连更三次，千问在争什么

Agent能力成了新的主战场

一次完整的工程任务：35小时、上千次工具调用

阿里的真正优势：场景和基础设施

评论

发表回复 取消回复

更多文章

Lovable牵手谷歌云，AI编程工具的使用量要翻5倍

英国出手了，谷歌AI搜索要让出版商能选择退出

GPT-SoVITS：58.3K Stars！AI语音克隆神器，1分钟音频定制你的声音

红色双马尾少女抱着玩偶卧室写实自拍

发表回复取消回复