拿下5000万美元融资，这家公司要用「数字世界」逼出AI Agent的真本事

作者：

在

Patronus AI 数字世界测试 — Patronus AI 用”数字世界”测试AI Agent

AI Agent这两年进化得越来越快，从最开始只能答答题，到现在能自主跑完一整套多步骤的复杂任务。但有个问题一直没人能很好地回答：你敢把自己的行程预订、财务分析交给一个还没被充分验证过的agent吗？

模型厂商和做agent的创业公司心里也清楚，光拿个高分基准测试成绩说明不了什么问题——agent在实际场景里能不能把事做对，才是真正的考验。

“数字世界”是个什么玩法

2023年，两个前Meta AI研究员Anand Kannappan和Rebecca Qian创办了Patronus AI。他们的思路很直接：既然Waymo是通过先构建合成世界来测试自动驾驶汽车应对极端天气、小孩追球这些罕见危险场景的能力，那AI agent为什么不能用类似的办法？

Patronus做的就是这件事：用他们称之为”数字世界模型（digital world models）”的技术，创建网站和内部系统的副本。agent在训练完后，会被扔进这些模拟环境里接受压力测试——强化学习会在这个过程中迭代：任务完成了给奖励，出错了给惩罚。

Notable Capital的管理总监Glenn Solomon说，前沿AI实验室和很多新兴创业公司现在都是他们的客户，对模拟环境的需求几乎是”无法满足的（insatiable）”。

为什么Patronus能拿到5000万美元

营收数据说话：过去一年，Patronus的营收增长了15倍。这不是小打小闹的POC（概念验证），而是实打实的客户需求在推动。本周四，公司宣布完成5000万美元B轮融资，由Greenfield Partners领投，Notable Capital、Lightspeed、Datadog和三星跟投。加上这一轮，Patronus总融资额已经达到7000万美元。

投资人看中的是这个赛道的刚需。AI agent有个很讨厌的习惯：走捷径。它们看起来好像把任务做完了，实际上偷工减料，结果就是任务没被正确完成。Solomon说：”Patronus特别擅长发现这些取巧行为，确保模型被追责。”

目前做到哪一步了

Kannappan说，目前主要聚焦在”可验证的问题”上——就是那些你能立刻检查对错的任务，比如软件工程和金融分析。但这远不是终点。”有很多领域是非常难以验证的”，他补充道。

Patronus的长期目标是构建能让agent运行10小时、10天甚至10周的环境。这个野心不小——意味着他们要模拟的不只是单次交互，而是长时间的、开放式的任务执行过程。

竞争对手方面，Patronus认为主要对手其实是各家AI实验室自己搭的评估团队。的确，OpenAI、Anthropic、Google这些大厂都在内部做模型评估。但Patronus的差异化在于：它做的是自动化评估，不需要人类参与。相比之下，Mercor和Surge这类依赖人类数据的公司，走的是另一条路。

AI agent能不能真正被大规模投入使用，测试和评估是很关键的一环。Patronus拿到这笔钱之后，这个赛道估计会变得更热闹。毕竟，谁能证明自己的agent最可靠，谁就能在接下来的商业化竞争中占得先机。

📎 原文来源：Patronus AI lands $50M to build ‘digital worlds’ that stress-test AI agents — TechCrunch

AI AI Agent AI安全 AI技术 AI融资

拿下5000万美元融资，这家公司要用「数字世界」逼出AI Agent的真本事

“数字世界”是个什么玩法

为什么Patronus能拿到5000万美元

目前做到哪一步了

评论

发表回复 取消回复

更多文章

亚马逊再砸130亿美元押注印度，全球AI算力竞赛找到新战场

Claude付费用户悄悄涨了75%，这家”企业向”AI公司正在撬动ChatGPT的消费者地盘

拿下5000万美元融资，这家公司要用「数字世界」逼出AI Agent的真本事

OpenAI GPT-5.6 因政府要求限制发布，监管大幕刚拉开

发表回复取消回复