KPMG的AI报告因为幻觉被撤，这家刚拿900万美元的公司说他们有解法

作者：

hiyoho

在

AI资讯

前几天KPMG撤掉了一份关于AI使用的报告，原因是报告里引用了多家机构的数据，但那些机构纷纷表示”我们没说过这个”。调查发现，这些错误来自AI幻觉——也就是说，这家全球顶级专业服务公司在制作一份关于AI的报告时，自己先被AI骗了。

这件事在AI圈子里传开之后，很多人把它当成一个笑话。但笑完之后，一个更严肃的问题摆在所有AI用户面前：如果连KPMG都用不好AI，普通人该怎么办？

“机甲套装”思路

Peter Elias创办的Probably公司刚拿了900万美元种子轮，领投方是Andreessen Horowitz。他们的思路说起来不复杂：既然大模型天生就会犯事实性错误，那就不要让用户直接碰到原始模型的输出，在模型和用户之间加一层”套装”——Elias自己用的词是”mech suit”（机甲套装）。

具体做法是：大模型的初版回答先经过一个确定性验证系统（deterministic validator）检查，验证系统会根据已知的数据集来核对结果，任何对不上的回答都会被打回去重算。关键是，大模型本身也针对这个验证系统做了训练，整个链条是一起优化的，而不是各干各的。

Elias总结了一句话：”你的套装工程设计得越好，你需要的模型就越弱。”意思是，如果你能把上下文整理得足够精确，模型其实不需要很聪明也能给出正确答案。本质上，这是在减少歧义。

用小模型干大事

这套架构带来一个有趣的副作用：因为验证层承担了大部分”把关”工作，Probably的数据科学工具实际上跑的是一个比前沿模型”弱四个级别”的模型。换句话说，他们不需要GPT-4o或者Claude Sonnet这种级别的模型，也能给出准确率极高的回答。

这意味着什么？意味着整套系统可以跑在本地硬件上，不需要把每一次查询都发到OpenAI或者Anthropic的服务器。对于企业用户来说，这省掉了一大笔token费用，也不用担心敏感数据离开自己的网络。

Elias说他们当前版本的模型跑在桌面级硬件上就没问题。这个定位很聪明——在大家都拼命往云端跑的时候，他选择了往本地走。

大AI实验室为什么不做这个

Elias在接受TechCrunch采访时说了一段挺直接的话：”有趣的是，大型AI实验室甚至没有尝试过这样做。他们的激励机制不支持他们这样做，因为用户越是需要反复纠正模型，他们就越赚钱。”

这个观察很犀利。OpenAI、Anthropic、Google这些公司的商业模式本质上建立在”模型还不够好”这个前提上——如果一次就能给出正确答案，用户就不需要多次调用API，收入就会下降。所以让他们主动把准确率做到99.99%，相当于让他们自己砍自己的收入。

Probably目前的第一款产品是一个数据科学工具，但Elias说这套引擎可以扩展到任何对精度敏感的场景——会计、医疗、法律分析，这些都是容错率极低的领域，也是目前AI最难真正落地的领域。

KPMG的尴尬撤稿事件其实正好给市场做了一次普及教育：AI幻觉不是小问题，它会导致真实的、可量化的损失。能解决这个问题的人，值得那900万美元。

📎 原文来源：Probably raises $9M to build a more reliable kind of AI — TechCrunch

AI AI创业 AI安全 AI幻觉

KPMG的AI报告因为幻觉被撤，这家刚拿900万美元的公司说他们有解法

“机甲套装”思路

用小模型干大事

大AI实验室为什么不做这个

评论

发表回复 取消回复

更多文章

被Google Docs的AI弹窗烦死了？教你一键关闭所有Gemini干扰

短信还能这么玩？这款AR应用让虚拟角色从屏幕里「跳」出来

Firecrawl — 134K+ Stars，为 AI Agent 量身打造的网页数据 API，搜索/爬取/交互一体化

G7峰会上，世界领导人对美国AI又爱又怕：担心随时被「拔网线」

发表回复取消回复