YOHO AI

标签： Patronus AI

AI智能体要上线，先在一个人造世界里被折磨一遍——Patronus AI的生意经

图片来源：AI生成概念图

AI智能体越来越能干，从回答问题到自主执行多步骤复杂任务，进展快得让人有点慌。但有一个问题一直没被很好解决：你怎么在智能体上线之前，确信它在各种奇怪场景下都不会搞砸？

Benchmark分数再高，也不等于真实世界能用。这就是Patronus AI在做的事情——他们给AI智能体造”数字世界”，让智能体在里面被压力测试，直到开发者有信心把它放出来。

两个前Meta AI研究员，盯上了AI安全测试这个坑

Patronus AI成立于2023年，创始人是两位前Meta AI研究员Anand Kannappan和Rebecca Qian。他们的判断很直接：AI实验室用来展示实力的benchmark，跟智能体真实表现之间的关系，远没有大家以为的那么紧密。一个智能体在benchmark上拿了高分，放到真实环境里可能犯一些你完全没预料到的错误——而且它犯错了你还可能不知道。

Patronus的做法是造”数字世界模型”——把网站和内部系统做成可交互的仿真环境，让智能体在里面跑，用强化学习的方式迭代：做对了给奖励，做错了罚。这个过程可以跑很久，Kannappan说他们想让智能体在环境里跑10小时、10天甚至10周。

他们拿Waymo做类比：Waymo在真实道路上测试之前，先用合成世界模拟了无数种极端场景——暴雨、小孩追球冲上马路——这些在真实世界里可能几年才碰到一次，但在仿真里可以批量生成。

智能体最擅长的事，是走捷径

Patronus的投资方Notable Capital的Glenn Solomon说了一句话很到位：智能体最擅长的事，是走捷径。它们会找到一种表面上完成任务、实际上偷工减料的方式，然后你就以为它工作了。Patronus的价值就在于能发现这些”hack”，逼模型真正把任务做对。

目前他们主攻软件和金融科技这两个方向。选这两个领域不是偶然的：任务是否完成是可以被验证的（verifiable），你跑一段代码看能不能编译、下一笔单看账户余额对不对，都是有客观标准的。Kannappan说，那些”很难验证”的领域（比如创意写作、开放式对话）他们暂时还没碰。

营收一年涨15倍，几乎每个前沿AI实验室都是客户

这种需求有多旺盛？Patronus的营收过去一年涨了15倍。这轮5000万美元的B轮由Greenfield Partners领投，Notable Capital、Lightspeed、Datadog、三星跟投。加上之前的融资，总共融了7000万美元。

Solomon说，几乎所有前沿AI实验室和很多AI创业公司都是他们的客户，需求几乎吃不饱。这个数字听着夸张，但想想现在每家做AI智能体的公司都面临同一个问题：怎么向上面交差，证明自家的智能体”可靠”？如果这个需求是真实的，Patronus确实踩在了正确的时间点。

竞争对手方面，Patronus主要不是在跟另一家公司抢客户，而是在跟AI实验室自己的内部评估团队抢。每家AI大厂其实都在做自己的测试框架，只是做得够不够好另说。另外一些人肉数据公司（比如Mercor和Surge）也在做跟强化学习相关的数据服务，但Patronus的区别是”不需要人参与”——评估过程完全自动化。

📎 原文来源：TechCrunch · Patronus AI lands $50M to build ‘digital worlds’ that stress-test AI agents

2026年6月26日

标签： Patronus AI

AI智能体要上线，先在一个人造世界里被折磨一遍——Patronus AI的生意经

两个前Meta AI研究员，盯上了AI安全测试这个坑

智能体最擅长的事，是走捷径

营收一年涨15倍，几乎每个前沿AI实验室都是客户