KPMG的AI报告因为幻觉被撤,这家刚拿900万美元的公司说他们有解法

AI可靠性与幻觉检测
AI幻觉问题正催生新的技术解决方案

前几天KPMG撤掉了一份关于AI使用的报告,原因是报告里引用了多家机构的数据,但那些机构纷纷表示”我们没说过这个”。调查发现,这些错误来自AI幻觉——也就是说,这家全球顶级专业服务公司在制作一份关于AI的报告时,自己先被AI骗了。

这件事在AI圈子里传开之后,很多人把它当成一个笑话。但笑完之后,一个更严肃的问题摆在所有AI用户面前:如果连KPMG都用不好AI,普通人该怎么办?

“机甲套装”思路

Peter Elias创办的Probably公司刚拿了900万美元种子轮,领投方是Andreessen Horowitz。他们的思路说起来不复杂:既然大模型天生就会犯事实性错误,那就不要让用户直接碰到原始模型的输出,在模型和用户之间加一层”套装”——Elias自己用的词是”mech suit”(机甲套装)。

具体做法是:大模型的初版回答先经过一个确定性验证系统(deterministic validator)检查,验证系统会根据已知的数据集来核对结果,任何对不上的回答都会被打回去重算。关键是,大模型本身也针对这个验证系统做了训练,整个链条是一起优化的,而不是各干各的。

Elias总结了一句话:”你的套装工程设计得越好,你需要的模型就越弱。”意思是,如果你能把上下文整理得足够精确,模型其实不需要很聪明也能给出正确答案。本质上,这是在减少歧义。

用小模型干大事

这套架构带来一个有趣的副作用:因为验证层承担了大部分”把关”工作,Probably的数据科学工具实际上跑的是一个比前沿模型”弱四个级别”的模型。换句话说,他们不需要GPT-4o或者Claude Sonnet这种级别的模型,也能给出准确率极高的回答。

这意味着什么?意味着整套系统可以跑在本地硬件上,不需要把每一次查询都发到OpenAI或者Anthropic的服务器。对于企业用户来说,这省掉了一大笔token费用,也不用担心敏感数据离开自己的网络。

Elias说他们当前版本的模型跑在桌面级硬件上就没问题。这个定位很聪明——在大家都拼命往云端跑的时候,他选择了往本地走。

大AI实验室为什么不做这个

Elias在接受TechCrunch采访时说了一段挺直接的话:”有趣的是,大型AI实验室甚至没有尝试过这样做。他们的激励机制不支持他们这样做,因为用户越是需要反复纠正模型,他们就越赚钱。”

这个观察很犀利。OpenAI、Anthropic、Google这些公司的商业模式本质上建立在”模型还不够好”这个前提上——如果一次就能给出正确答案,用户就不需要多次调用API,收入就会下降。所以让他们主动把准确率做到99.99%,相当于让他们自己砍自己的收入。


Probably目前的第一款产品是一个数据科学工具,但Elias说这套引擎可以扩展到任何对精度敏感的场景——会计、医疗、法律分析,这些都是容错率极低的领域,也是目前AI最难真正落地的领域。

KPMG的尴尬撤稿事件其实正好给市场做了一次普及教育:AI幻觉不是小问题,它会导致真实的、可量化的损失。能解决这个问题的人,值得那900万美元。

📎 原文来源:Probably raises $9M to build a more reliable kind of AI — TechCrunch

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注