大多数AI公司都在拼命训练更大的模型,日本初创公司Sakana却在做一件看起来有点「偷懒」的事:它训练了一个模型,专门负责指挥其他模型干活。这个产品叫Fugu Ultra,最近发布的基准测试结果让不少人感到意外。
先说结论:Fugu Ultra的性能,据称可以媲美甚至超过Fable 5、Gemini 3.1 Pro和GPT-5.5。但它做到这一点的方法,不是自己从头训练一个更大的模型,而是巧妙地把多个前沿模型组合在一起使用。

它到底是怎么工作的
Fugu本身是一个经过专门训练的语言模型,核心能力是「学会如何协调多模型协作」。遇到简单任务,它自己就处理了;遇到复杂的多步骤任务,它会自动把任务拆开,分配给专家模型池里的多个模型,然后再把结果整合起来返回给用户。
关键是,用户完全不需要知道背后发生了什么。你只需要调用一个API端点,Fugu会自动完成模型选择、任务委托、结果验证、内容合成——整个过程对用户是透明的。
Sakana的说法是,Fugu会「仔细选择何时使用其他前沿模型(比如Claude和Gemini)来处理特定任务」,但不会告诉用户具体哪个任务用了哪个模型。这种设计引发了一些讨论——如果用户不知道背后是哪个模型在处理自己的请求,怎么判断输出质量?
基准测试说了什么
Sakana公布了基准测试结果,涵盖编程、推理、科学、智能体能力等多个类别。Fugu Ultra的得分与Fable 5、Mythos Preview处于同一梯队。更值得注意的是,Fugu的得分普遍高于它底层调用的各个基础模型——这说明「编排」本身带来了性能增益,不只是简单地把几个模型堆在一起。
据Sakana披露,在近500名beta测试用户的真实场景验证中,Fugu在AutoResearch、代码审查、网络安全分析等任务中,表现超过了Gemini 3.1 Pro、Opus 4.8和GPT 5.5等头部模型。
一个巧妙的「避险」设计
Fugu还有一个值得关注的设计:它的底层专家模型池是完全支持动态替换的。如果某个模型供应商突然限制访问(比如出口管制、政策变动),Fugu会自动路由到其他可用模型。
这在当前地缘政治环境下很有意义。美国对先进AI模型的出口管制越来越严,如果一个产品完全依赖Anthropic或OpenAI的API,随时可能因为政策变化而中断。Fugu的「多模型备份」设计,某种程度上是在这个问题上做文章。
Sakana在自己的技术报告里说:「随着时间的推移,Sakana Fugu会自然地通过纳入更新、更高效的模型来成长,包括我们自己的模型。」换句话说,今天的Fugu Ultra和明年的Fugu Ultra,底层模型组合可能完全不一样,但对用户来说,调用方式不变。
这不就是「套壳」吗
看到这里,你可能会想:这不就是一个精心设计的「套壳」产品吗?把别人的模型包装一下,加一层调度逻辑,然后卖得更贵?
这个质疑有道理,但也不完全公平。Fugu的价值不在于「调用Claude的API」这件事本身——谁都能调用Claude的API——而在于如何智能地决定什么时候调用哪个模型、如何把多个模型的输出整合成一个高质量答案。这个「如何调度」的问题,其实是AI领域一个很活跃的研究方向,叫「多智能体编排」。
Sakana的两个研究论文(发表在ICLR 2026)就是在做这个。从学术论文到可商用的产品,这条路不好走,但Fugu算是目前能看到的最完整的实现之一。
更大的问题
Fugu的出现,提出了一个更大的问题:AI的未来是「一个超级模型解决所有问题」,还是「一群专门化的模型协同工作」?
过去两年的主流叙事是前者:模型越大越好,数据越多越好,Scaling Law就是王道。但越来越多的人开始质疑这个叙事。训练一个前沿级模型要消耗多少算力?产生多少碳排放?有多少任务是真的需要一个万亿参数模型才能解决的?
Fugu代表的,是后一种思路:与其把所有能力塞进一个模型,不如让专门的模型做专门的事,上面加一层智能调度。这个思路如果成立,对整个AI基础设施的投资逻辑都会产生影响。
发表回复