
AI Agent这两年进化得越来越快,从最开始只能答答题,到现在能自主跑完一整套多步骤的复杂任务。但有个问题一直没人能很好地回答:你敢把自己的行程预订、财务分析交给一个还没被充分验证过的agent吗?
模型厂商和做agent的创业公司心里也清楚,光拿个高分基准测试成绩说明不了什么问题——agent在实际场景里能不能把事做对,才是真正的考验。
“数字世界”是个什么玩法
2023年,两个前Meta AI研究员Anand Kannappan和Rebecca Qian创办了Patronus AI。他们的思路很直接:既然Waymo是通过先构建合成世界来测试自动驾驶汽车应对极端天气、小孩追球这些罕见危险场景的能力,那AI agent为什么不能用类似的办法?
Patronus做的就是这件事:用他们称之为”数字世界模型(digital world models)”的技术,创建网站和内部系统的副本。agent在训练完后,会被扔进这些模拟环境里接受压力测试——强化学习会在这个过程中迭代:任务完成了给奖励,出错了给惩罚。
Notable Capital的管理总监Glenn Solomon说,前沿AI实验室和很多新兴创业公司现在都是他们的客户,对模拟环境的需求几乎是”无法满足的(insatiable)”。
为什么Patronus能拿到5000万美元
营收数据说话:过去一年,Patronus的营收增长了15倍。这不是小打小闹的POC(概念验证),而是实打实的客户需求在推动。本周四,公司宣布完成5000万美元B轮融资,由Greenfield Partners领投,Notable Capital、Lightspeed、Datadog和三星跟投。加上这一轮,Patronus总融资额已经达到7000万美元。
投资人看中的是这个赛道的刚需。AI agent有个很讨厌的习惯:走捷径。它们看起来好像把任务做完了,实际上偷工减料,结果就是任务没被正确完成。Solomon说:”Patronus特别擅长发现这些取巧行为,确保模型被追责。”
目前做到哪一步了
Kannappan说,目前主要聚焦在”可验证的问题”上——就是那些你能立刻检查对错的任务,比如软件工程和金融分析。但这远不是终点。”有很多领域是非常难以验证的”,他补充道。
Patronus的长期目标是构建能让agent运行10小时、10天甚至10周的环境。这个野心不小——意味着他们要模拟的不只是单次交互,而是长时间的、开放式的任务执行过程。
竞争对手方面,Patronus认为主要对手其实是各家AI实验室自己搭的评估团队。的确,OpenAI、Anthropic、Google这些大厂都在内部做模型评估。但Patronus的差异化在于:它做的是自动化评估,不需要人类参与。相比之下,Mercor和Surge这类依赖人类数据的公司,走的是另一条路。
AI agent能不能真正被大规模投入使用,测试和评估是很关键的一环。Patronus拿到这笔钱之后,这个赛道估计会变得更热闹。毕竟,谁能证明自己的agent最可靠,谁就能在接下来的商业化竞争中占得先机。
发表回复