日本AI公司做了个「元模型」:用Claude和Gemini一起干活,效果居然超过它们

大多数AI公司都在拼命训练更大的模型,日本初创公司Sakana却在做一件看起来有点「偷懒」的事:它训练了一个模型,专门负责指挥其他模型干活。这个产品叫Fugu Ultra,最近发布的基准测试结果让不少人感到意外。

先说结论:Fugu Ultra的性能,据称可以媲美甚至超过Fable 5、Gemini 3.1 Pro和GPT-5.5。但它做到这一点的方法,不是自己从头训练一个更大的模型,而是巧妙地把多个前沿模型组合在一起使用

Sakana Fugu AI模型编排
Fugu Ultra通过编排多个AI模型来提供前沿级性能(配图由AI生成)

它到底是怎么工作的

Fugu本身是一个经过专门训练的语言模型,核心能力是「学会如何协调多模型协作」。遇到简单任务,它自己就处理了;遇到复杂的多步骤任务,它会自动把任务拆开,分配给专家模型池里的多个模型,然后再把结果整合起来返回给用户。

关键是,用户完全不需要知道背后发生了什么。你只需要调用一个API端点,Fugu会自动完成模型选择、任务委托、结果验证、内容合成——整个过程对用户是透明的。

Sakana的说法是,Fugu会「仔细选择何时使用其他前沿模型(比如Claude和Gemini)来处理特定任务」,但不会告诉用户具体哪个任务用了哪个模型。这种设计引发了一些讨论——如果用户不知道背后是哪个模型在处理自己的请求,怎么判断输出质量?

基准测试说了什么

Sakana公布了基准测试结果,涵盖编程、推理、科学、智能体能力等多个类别。Fugu Ultra的得分与Fable 5、Mythos Preview处于同一梯队。更值得注意的是,Fugu的得分普遍高于它底层调用的各个基础模型——这说明「编排」本身带来了性能增益,不只是简单地把几个模型堆在一起。

据Sakana披露,在近500名beta测试用户的真实场景验证中,Fugu在AutoResearch、代码审查、网络安全分析等任务中,表现超过了Gemini 3.1 Pro、Opus 4.8和GPT 5.5等头部模型。

一个巧妙的「避险」设计

Fugu还有一个值得关注的设计:它的底层专家模型池是完全支持动态替换的。如果某个模型供应商突然限制访问(比如出口管制、政策变动),Fugu会自动路由到其他可用模型。

这在当前地缘政治环境下很有意义。美国对先进AI模型的出口管制越来越严,如果一个产品完全依赖Anthropic或OpenAI的API,随时可能因为政策变化而中断。Fugu的「多模型备份」设计,某种程度上是在这个问题上做文章。

Sakana在自己的技术报告里说:「随着时间的推移,Sakana Fugu会自然地通过纳入更新、更高效的模型来成长,包括我们自己的模型。」换句话说,今天的Fugu Ultra和明年的Fugu Ultra,底层模型组合可能完全不一样,但对用户来说,调用方式不变。

这不就是「套壳」吗

看到这里,你可能会想:这不就是一个精心设计的「套壳」产品吗?把别人的模型包装一下,加一层调度逻辑,然后卖得更贵?

这个质疑有道理,但也不完全公平。Fugu的价值不在于「调用Claude的API」这件事本身——谁都能调用Claude的API——而在于如何智能地决定什么时候调用哪个模型、如何把多个模型的输出整合成一个高质量答案。这个「如何调度」的问题,其实是AI领域一个很活跃的研究方向,叫「多智能体编排」。

Sakana的两个研究论文(发表在ICLR 2026)就是在做这个。从学术论文到可商用的产品,这条路不好走,但Fugu算是目前能看到的最完整的实现之一。


更大的问题

Fugu的出现,提出了一个更大的问题:AI的未来是「一个超级模型解决所有问题」,还是「一群专门化的模型协同工作」?

过去两年的主流叙事是前者:模型越大越好,数据越多越好,Scaling Law就是王道。但越来越多的人开始质疑这个叙事。训练一个前沿级模型要消耗多少算力?产生多少碳排放?有多少任务是真的需要一个万亿参数模型才能解决的?

Fugu代表的,是后一种思路:与其把所有能力塞进一个模型,不如让专门的模型做专门的事,上面加一层智能调度。这个思路如果成立,对整个AI基础设施的投资逻辑都会产生影响。

📎 原文来源:Sakana Fugu Ultra promises to deliver “the very best frontier-level performance” by… using frontier AI models | The Verge

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注