作者： hiyoho

Vibe Coding：每个人都能写软件的时代来了
AI正在让”个人软件”成为可能（图片来源：The Verge）

说实话，我最近一直在想一个问题：为什么我们每天都在用那些”勉强能用”的软件？

你知道我在说什么——那个待办事项app，功能挺全，但就是少了那么一个你想要的小功能；那个笔记工具，同步很稳，但界面丑得让你每次打开都想换一个。以前遇到这种情况，要么忍，要么学编程，要么花钱请人写。现在？AI帮你写。

David Pierce在The Verge写了篇长文，讲的是”vibe coding”——这个词是Andrej Karpathy（OpenAI创始团队成员）提出来的。意思是，你不需要懂编程，只要你能说清楚想要什么，AI就能帮你把软件写出来。他形容这个状态是”不work才让人惊讶”，而不是”work了才惊讶”。这转折挺大的。

我试了Claude Code

我试了一下Claude Code。20分钟，我写出了一个勉强能跑的原型——日历、笔记、任务清单全在一个页面里。当然，后面修bug花了我好几天，但关键是：我真的在”做软件”了，而不是在”提需求”。

Robin Sloan是个作家，同时也是个技术爱好者。他经营一家橄榄油公司，用AI写了个Ruby脚本，从Shopify和USPS拉数据，自动生成发货标签。他自己也说”写得挺凑合的”，但管用。他还说了句挺戳人的话：”如果我被巴士撞了，这对我的橄榄油公司来说是个问题，因为只有Robin知道怎么跑这个软件。”但只要Robin还在，它就跑得挺好。

那些只服务于一个人的app

这篇文章里列举了一堆”个人软件”的例子，看得我直乐：有人写了个命令行工具给幻想棒球球员排名，有人给1990年代的游戏加入可再生能源概念，有人做了个优化Secret Santa分配的工具，还有人搞了个系统在院子里标记狗屎位置（这玩意儿居然真的有人需要！）。

这些app的”可寻址市场”精确到一个人，收入潜力精确为零美元。但这就是”个人软件”的真谛——它不一定是要卖给别人的，它就是为你自己量身定做的。

为什么现在才行？

说实话，以前不是没人想过让普通人写软件。IFTTT、Apple Shortcuts，这些工具都试过，但问题在于：如果你要用”如果-那么”语句来思考，大多数人就已经放弃了。

大语言模型改变的是这个交互方式。你不需要学编程语法，你只需要能用自然语言描述你想要什么。而且，现在的AI不只是”生成代码”，它还能帮你调试、帮你理解报错信息、甚至帮你部署到GitHub和Vercel。
- Vibe Coding：不需要学编程，用自然语言让AI写软件
- 个人软件时代：为自己量身定制，不一定非要卖给别人
- 边缘需求有救了：大厂不做的功能，现在你能自己搞
- 局限也很明显：没客服、没保障，但对你一个人来说可能够用了
最后说一句：以后评判一个人”懂不懂技术”，可能不再是他会不会写代码，而是他能不能用AI把自己的需求变成现实。这个门槛，比我想象中低多了。

📎 原文来源：You can make an app for that – The Verge
2026年5月15日
Notion把workspace变成了AI智能体指挥中心
Notion推出开发者平台，变身AI智能体指挥中心（图片来源：Notion/TechCrunch）

Notion这次真的放大招了。5月13日，这家以笔记协作出名的公司搞了一场直播发布会，推出的东西让我眼前一亮——他们把自己的workspace直接变成了AI智能体的指挥中心。

说实话，我一开始也没太当回事。Notion加个AI功能不是啥新鲜事，市面上类似的工具多的是。但这次不一样，他们搞的是一个完整的开发者平台，能让你自己写代码、接入外部智能体、还能搞自动化工作流，把数据库里的数据随便拉出来用。

从100万智能体到开发者平台

先说说背景。今年2月份Notion第一次推出”Custom Agents”的时候，我就试过。那时候能做的事情挺基础的——回答常见问题、整理状态更新、跑一些简单的工作流。说实话，有点鸡肋。但你猜怎么着？用户们硬是捏出了超过100万个智能体。这数据让我意识到，需求是真的存在，只是工具还不够强大。

这次更新的核心叫”Workers”。简单说，就是Notion给了你一个云端沙盒环境，你能把自己的代码扔进去跑。不需要搞自己的服务器，不需要折腾第三方自动化平台，直接在这个隔离环境里写逻辑、同步数据、设置webhook触发。我试了一下，说实话比想象中顺手。

Notion的联合创始人Ivan Zhao在直播里挺坦诚地说了：”说实话，Notion历史上确实不是个对开发者友好的平台。但事情正在起变化。”这话我信，因为这整套开发者平台的设计确实是在认真考虑开发者的需求。

数据库同步是关键

最让我感兴趣的是数据库同步这个功能。通过Workers，你能把任何有API的数据库（Salesforce、Zendesk、Postgres随便你）直接拉进Notion，还能保持实时更新。Notion的CEO Ivan Zhao说了一句话我觉得挺有意思：”你可以把Notion数据库当成一块纯粹的画布，用来驱动你的工作流和智能体。”这话听起来有点抽象，但实际用起来确实那个感觉——终于不用在各种工具之间跳来跳去了。

然后还有一个挺实用的功能：你可以直接在Notion里跟外部AI智能体聊天，分配任务，追踪进度，就像它们是Notion自家的智能体一样。目前支持Claude Code、Cursor、Codex和Decagon，后面还会加更多。

几个值得关注的亮点
- 自定义代码沙盒：不用自己搞服务器，直接在Notion的隔离环境跑代码
- 数据库同步：任何有API的数据库都能实时拉进Notion
- 外部智能体接入：Claude Code、Cursor、Codex直接当Notion智能体用
- 8月前免费：明显是在抢开发者生态
我觉得这步棋下得挺聪明的。现在各家AI公司都在从”聊天机器人”往”能干活智能体”这个方向转，Notion把自己定位成”智能体协作中心”，而不是直接跟人家拼模型能力。毕竟，大多数企业用户要的不是更聪明的AI，而是一个能把现有工具串联起来、让AI真正融入工作流的东西。

Ivan Zhao总结了一句话：”任何数据，任何工具，任何智能体——这是Notion开发者平台的大图景。”听起来挺霸气的，但我觉得方向是对的。AI工具如果真的要在企业里落地，这种”连接器”的角色可能比”最强模型”更实用。

📎 原文来源：Notion just turned its workspace into a hub for AI agents – TechCrunch
2026年5月15日
AI智能体不能再”自由发挥”了：三部门联合发文划定决策边界

AI智能体以后不能想干嘛就干嘛了。前脚AI Agent赛道火得一塌糊涂，后脚监管就来了——国家网信办、国家发展改革委、工业和信息化部三部门联合印发了《智能体规范应用与创新发展实施意见》，给AI智能体的发展套上了”笼子”。

智能体是什么？说白了就是能自己干活儿的AI

官方给智能体下了个定义：具备自主感知、记忆、决策、交互与执行能力的智能系统。翻译成人话就是——它能自己看、自己想、自己做决定、自己干活。随着大模型技术成熟，智能体正在加速跟网络空间、物理世界深度融合，这玩意儿要是不管一管，确实容易出事儿。

智能体决策权限划分为三个层级：仅限用户本人决策、需由用户授权决策、智能体自主决策——明确划定各种决策方式的合理边界及所需权限

安全可控是底线，创新驱动是方向

《意见》提出了四大基本原则：安全可控、规范有序、创新驱动、应用牵引。具体举措主要围绕四个方面：夯实技术底座和标准协议、守牢安全底线和防范风险、强化19个典型应用场景牵引、建设创新生态促进产业合作。

19个场景定了哪些方向？

应用场景覆盖五大方向：科学研究、产业发展、提振消费、民生福祉、社会治理。《意见》还提出了一个量化目标：新一代智能终端、智能体等应用普及率要超70%。说实话，这个覆盖率目标挺激进的，意味着三年内智能体要从”尝鲜”变成”标配”。

我觉得这次监管来得挺及时的。之前看到各种AI Agent产品一个比一个激进，各种”全自动”、”自主执行”吹得天花乱坠，普通用户根本搞不清楚这些AI到底能自己做什么主。现在好了，官方给你划清楚——哪些必须人拍板、哪些可以授权、哪些AI能自己定。这有点像给AI立了个”交规”，接下来就看执行力度了。

📎 原文来源：三部门发文规范AI智能体发展规范与创新并举（财新网）

2026年5月14日
1.2万亿美元！Anthropic估值正式反超OpenAI，硅谷王座彻底易主

说实话，我一直以为OpenAI稳坐AI领域头把交椅来着，结果这两天看到一个数据把我惊到了——Anthropic的估值居然飙到1.2万亿美元，正式超过OpenAI了。

15个月，30倍增长

你们知道Anthropic的CEO Dario Amodei之前透露了什么吗？他说今年第一季度，Anthropic的年化收入（ARR）和使用量同比暴涨了80倍。原本他们定的目标才10倍，没想到直接翻了好几倍。这增长引擎主要是Claude Code——这款去年底上线的编程工具在开发者圈子里扩散速度太快了。

ARR从2025年初的10亿美元飙升到2026年4月的300亿美元，15个月完成30倍增长，Pre-IPO市场隐含估值触及1万亿美元

算力争夺战：马斯克送来22万块GPU

Anthropic这波增长太猛了，据说原来的算力直接”炸锅”限流了。关键时刻马斯克出手，SpaceX的Colossus 1数据中心把全部算力都给了Anthropic——整整300兆瓦计算能力，22万块英伟达顶级GPU。这还没完，Google又签了个五年2000亿美元的大单，占谷歌云合同积压总额的40%以上。

Anthropic构建的庞大算力帝国

全球第11大上市公司

如果按这个估值上市，Anthropic直接就是全球第11大上市公司了，前面是苹果、微软、英伟达、亚马逊、Alphabet、Meta、台积电、博通、特斯拉、沙特阿美这些巨头。老实讲，这个排名确实有点魔幻。

我觉得吧，Anthropic能反超OpenAI，关键还是Claude系列在企业市场站稳了脚跟。Dario Amodei之前一直在强调”负责任的AI”，没想到这套理念在商业上也挺吃香。不过话说回来，1.2万亿的估值需要到2029年收入增长20-30倍才能支撑，这个目标也是相当激进的。AI圈的故事，越来越有意思了。

📎 原文来源：全球AI新王诞生，Anthropic估值冲爆1.2万亿，首次反超OpenAI

2026年5月14日
模型不卷了，卷系统：AI行业正在发生一场安静的大转向
如果你最近还在盯着各种模型排行榜看谁又拿了第一，我建议把注意力挪一挪。AI行业正在发生一个不太显眼但我觉得更重要的变化——从”模型竞赛”转向”系统竞争”。说白了，比的不是谁家模型最聪明了，而是谁能把AI塞进你的日常流程里让你真正用起来。

AI正在从”看它能做什么”的阶段，进入”它在这套系统里扮演什么角色”的阶段。模型变得越来越不可见，但越来越有价值。

Google在重新发明鼠标

Google DeepMind前两天搞了个叫Magic Pointer的东西，我觉得这个概念比大多数新模型发布都有意思。简单说就是给鼠标指针加上AI能力——你不用打开对话框输入提示词，直接指向屏幕上的东西，AI就知道你想干嘛。指向一段文字，它能帮你改写；指向航班信息，它直接给你查详情和比价。

这背后的思路其实挺颠覆的。以前我们跟AI交互的方式是打开一个聊天窗口，然后在里面描述需求。DeepMind觉得这不自然，为什么不让AI来适应你已有的操作习惯？你在任何界面里想做什么，指一下就行了。目前这个功能已经在Google AI Studio上线演示版，Chrome浏览器里的Gemini助手也开始支持了。

阿里把AI变成了印钞机

说完交互，再看看商业化这块。阿里刚发了最新季度的财报，云计算智能部门收入达到416.3亿元，同比增长38%。整体营收才涨了3%，但这38%的增长让我眼前一亮。AI产品目前占外部云收入的30%，阿里预计一年内能超过50%。

他们的Qwen聊天机器人已经整合进了淘宝和天猫，用户可以像跟朋友聊天一样浏览和下单。企业端的悟空智能体工具也在铺开。阿里甚至说原定的三年3800亿AI投资计划可能会超标，因为早期回报太好了。财报发布后股价涨了7%以上，市场用真金白银给AI商业化投了票。

真正的竞争刚刚开始

把这些消息放在一起看，趋势很明显：微软在推Agent 365做企业AI治理，Google在用Gemini Intelligence把Android变成一个主动式的AI操作系统，S&P Global把垂直领域专业知识跟GenAI结合做金融决策支持。大家都不再执着于”谁的模型参数大”这种话题了。
- 竞争焦点从模型能力转向分发渠道、界面体验和治理框架
- Google Gemini Intelligence今夏上线最新款手机，手表、汽车、眼镜陆续跟进
- OpenAI审判从商业纠纷演变成AI行业治理的标志性事件
- 垂直领域AI（如金融研究）正在证明比通用AI更有商业护城河
我的感受是，2026年的AI正在变成一种”基础设施”——你不太会注意到它的存在，但它确实在改变你跟电脑交互的方式、你购物的体验、你获取信息的方法。这种变化比”模型又刷新了榜单”这种新闻实际得多，也重要得多。

接下来真正值得关注的不是哪家公司又发布了新模型，而是谁先打通了”模型到场景”的最后一公里。这场仗，才刚开始。

📎 原文来源：AI Dispatch: Daily Trends and Innovations – May 13, 2026 | DeepMind揭秘Google魔法指针：AI让鼠标真正读懂你的意图
2026年5月14日
GPT-5.5卖180刀，DeepSeek只收0.28刀：大模型价格战到底卷到了什么程度
最近看到一个数据，差点把咖啡喷出来——GPT-5.5每百万token要180美元，而DeepSeek V4 Flash只要0.279美元。算一下，价差645倍。这什么概念？相当于一辆法拉利和一辆五菱宏光的差距。但问题在于，五菱宏光在日常通勤里可能比法拉利好使。

有人做了个实验，把同一个任务分别扔给GPT-5.5、Claude Opus、Gemini 3.1 Flash和DeepSeek V4 Flash跑了一遍。结果挺有意思：写复杂代码、做多步推理、处理那种模糊需求的时候，GPT-5.5确实强得离谱，能读懂你话里的潜台词。但换成整理文档、写周报、翻译邮件、分析数据这些日常活儿，四个模型基本看不出区别。

2024年同等水平的推理成本是20美元/百万token，两年后的今天降到了0.07美元。两年内下降了280倍。

五强模型，差距越来越小

现在市面上的头部模型——GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、DeepSeek V3和Kimi K2.5，在Elo评分榜上的差距已经压缩到只有2.7%。说实话，这个差距在大多数使用场景下根本感知不到。以前大家比的是”谁更聪明”，现在核心问题变成了：这个模型适合我的场景吗？预算用得起吗？跟我现有的工具链能接上吗？

训练成本的变化也挺魔幻的。DeepSeek V3的训练成本是557万美元，而GPT-4的训练据说超过1亿美元。差了将近16倍。但输出质量呢？日常使用几乎拉不开差距。我觉得DeepSeek赢的不只是价格，更是证明了”够用”这个概念的商业价值。

选模型的新逻辑

现在业内的共识已经变了——不是找最强的，是找最对口的。通用任务和自动化工作流用GPT-5.4，长文档处理和高质量代码用Claude Opus 4.6，多模态理解用Gemini 3.1 Pro，成本敏感和中文场景用DeepSeek V3，超长上下文需求就上Kimi K2.5。
- Claude的百万级上下文不是噱头，整个代码库扔进去分析是真的好用
- DeepSeek V4 Flash的100万token窗口能塞进大型代码仓库
- GLM-4.7在华为昇腾上训练，直接把推理价格压到行业最低的0.11美元
- Claude Token消耗比GPT高出55%，长文档场景要掂量钱包
老话说得好，你不会开法拉利去买菜，同样也没必要用GPT-5.5写周报。对普通团队来说，以前调一次API几块钱，做大项目光模型成本就上百万。现在一个中小团队花几千块能用一年。这种成本的崩塌速度，说实话超出了我去年最乐观的预期。

2026年的AI行业像极了2010年的智能手机市场。还在拼参数的公司可能被讲性价比的公司打得找不着北。真正的战场已经不是模型本身了，而是Agent、工具链和工作流整合。模型只是基础设施，谁能让AI真正干活，谁才是赢家。

📎 原文来源：2026年AI模型大乱斗：GPT-5.5卖天价，国产模型已经打到一毛一了 | 2026年AI大模型五强争霸：别数算力了，效率才是硬道理
2026年5月14日
OpenAI发布GPT-5.5 Instant：减少幻觉、接入Gmail，大模型进入“可靠性竞赛”

OpenAI又更新了，这次是GPT-5.5 Instant。说实话，大模型更新越来越频繁了，但这次有几个点我觉得确实值得关注。

核心升级：减少幻觉+保持速度

GPT-5.5 Instant取代了GPT-5.3 Instant，成为ChatGPT的新默认模型。从参数命名上就能看出来，这是一个侧重”即时响应”的版本。OpenAI这次最强调的改进是在法律、医疗、金融这些敏感领域减少了幻觉问题，同时保持了前代的低延迟。

我觉得这个方向非常务实。说实话，现在的大模型在闲聊、写文案方面已经足够好了，真正让人不放心的反而是那些需要精确性的专业场景。如果GPT-5.5 Instant真的能显著降低医疗和法律领域的幻觉率，那这对于AI的实际落地来说，比数学竞赛分数提高几十个点要有意义得多。

数据说话：AIME数学能力暴增

不过数字确实也很漂亮。AIME 2025数学测试成绩从65.4直接飙升到81.2，提升了约24%。MMMU-Pro多模态推理从69.2涨到76。虽然AIME和普通人的日常使用场景关系不大，但这至少说明模型的基础推理能力确实在稳步提升。

我比较关注的是，这种推理能力的提升能不能真正转化为日常使用中的体验改善。比如你在让它分析一份复杂报告的时候，是不是能给出更有深度的见解？在处理逻辑推理类问题的时候，是不是不那么容易”犯蠢”了？这些才是普通用户真正在乎的。

记忆系统升级：Gmail集成是个杀手级功能

这次更新中我认为最值得关注的功能，其实是上下文管理（Context Management）的升级。GPT-5.5 Instant现在可以搜索和回溯你过去的对话、文件，甚至直接访问你的Gmail。

这意味着什么？意味着ChatGPT正在从一个”聪明的对话工具”变成一个”了解你的个人助手”。它能记住你之前的偏好、搜索你之前的文档、甚至查看你的邮件内容来给出更个性化的回答。

当然，隐私问题也随之而来。OpenAI这次的应对方案是：记忆来源透明化——ChatGPT会在所有模型中显示记忆来源，帮助用户了解答案的生成依据。而且用户可以删除过时的记忆来源或纠正错误答案。分享对话时，接收方也看不到记忆来源。我觉得这些措施算是做到了最基本的隐私保护，但对于更敏感的用户来说，可能还不够。

GPT-4o退役的教训

说到这里，不得不提一下GPT-4o退役的事。今年2月份GPT-4o正式弃用的时候，用户的反弹非常强烈。有些人甚至发起了请愿，把GPT-4o描述为”最好的朋友”。这听起来有点夸张，但我觉得它反映了一个真实的问题：当AI工具成为人们日常生活的一部分时，模型更迭就不只是一个技术决策了。

OpenAI这次吸取了教训，GPT-5.3将作为付费用户的可选项保留三个月，而不是直接一刀切地退役。我觉得这个做法更温和也更合理。

我的看法

GPT-5.5 Instant给我的整体感觉是：OpenAI正在把大模型从”很聪明的聊天机器人”推向”可靠的个人助手”。减少幻觉是为了让你敢在重要场景用，Gmail集成是为了让它更了解你，记忆来源透明化是为了让你放心用。

大模型的竞赛已经从”谁的分数更高”变成了”谁更可靠、更实用”。这个转变我认为对整个行业来说是个好信号。毕竟，分数再高，如果普通用户不敢放心使用，那也只是实验室里的玩具而已。

2026年5月13日
Google在Android端放大招：Gemini不只是助手，而是你的“超级代理”

说实话，看完Google在Android Show: I/O Edition上发布的内容，我觉得移动端AI的竞争正式进入了一个全新阶段。这次的更新不是简单地在手机上加个AI按钮，而是直接让Gemini变成一个能跨应用、跨场景帮你干活的“超级代理”。

从“回答问题”到“替你干活”

我觉得这次最核心的变化，是Gemini从被动式的问答工具升级成了主动式的任务执行者。具体来说，你现在长按电源键，对着Gemini说“帮我把笔记里的购物清单加到购物车里”，它就能自动跨应用完成这个操作——先去你的笔记App找到清单，再去购物App把商品逐一添加，最后等你确认后完成下单。

这不是概念演示，Google说这些功能今年夏天就会在三星Galaxy和Pixel设备上率先上线。我觉得这个节奏其实挺有意思的：三星作为最大的Android厂商优先适配，说明Google在生态合作上确实下了功夫。

不过说实话，这个多步骤任务执行功能让我既兴奋又有点担心。兴奋是因为它确实能大幅提升效率，尤其是那些需要反复切换App的操作流程。担心的是，当AI开始替你点击“确认付款”按钮的时候，隐私和安全性就成了绕不开的问题。Google在表单填写功能上采用了opt-in模式（默认关闭），这个做法我觉得是对的，给了用户充分的控制权。

“Vibe Coding”：普通人也能做Widget开发者

这次发布会上还有一个让我眼前一亮的功能——“Create My Widget”。简单来说，你只需要用自然语言描述你想要什么功能的小组件，AI就能帮你生成出来。

比如你可以说“每周给我推荐三个高蛋白备餐食谱”，然后一个符合Material 3设计规范的Widget就出现在你桌面上了。不需要写一行代码，不需要懂开发。说实话，我觉得这可能是这次发布会中最具“颠覆性”的功能。

为什么这么说？因为它降低了UI开发的门槛。以前你需要一个开发者才能做的自定义小组件，现在每个人都可以用一句话创建。这种“自然语言即编程”的思路，其实就是AI民主化开发的一个缩影。虽然Nothing公司去年就做过类似的功能，但Google把这种能力整合到了Android系统层面，影响力完全不在一个量级。

Gboard也要被AI重塑了

还有一个值得关注的更新是Gboard的语音输入功能。Google给这个新功能起名叫“Rambler”，它不仅能把你说的话转成文字，还能用Gemini的多模态能力理解你的语气，并且自动帮你去掉那些“嗯”“啊”之类的口头禅。

说实话，语音转文字不是新鲜事，但能做到理解语气、自动润色输出格式，这个体验提升还是挺大的。对于经常需要语音录入的人来说，这绝对是一个实用功能。

我的看法

我觉得Google这次在Android端的AI布局，真正瞄准的是一个趋势：AI正在从“工具”变成“代理”。以前我们用AI是去问它问题、让它帮我们分析数据，现在AI开始直接替我们执行操作、完成流程。这种转变对于用户来说，意味着手机使用方式的根本性变化。

但我也想说一句：这些功能落地后，用户体验好不好，还得看实际表现。跨应用操作能不能稳定运行、误操作率有多高、不同手机厂商的适配情况如何——这些才是真正决定成败的关键因素。

总的来说，2026年下半年的Android手机，可能会让人觉得越来越像一个“长了脑子”的个人助理。而Google这次交出的答卷，至少在产品思路上，我认为是走在正确方向上的。

2026年5月13日
agentmemory：让AI编程代理拥有持久记忆的神器
说实话，用Claude Code或Cursor写代码时，最头疼的就是每次开新会话都要重新解释项目结构、代码规范和之前的决策。CLAUDE.md写满了又容易过时，这个痛点真的太普遍了。

直到我发现了agentmemory——这是一个专门为AI编程代理打造的持久记忆系统，能自动记住一切，彻底告别重复解释。

🎯 项目简介

agentmemory是GitHub上排名第一的AI编程代理持久记忆工具，基于真实基准测试构建。它能 silently 捕获编程代理的所有操作，将其压缩成可搜索的记忆，在下次会话时自动注入正确的上下文。

目前狂揽 5.9k+ Stars，今日增长超过1000 Stars，堪称年度黑马项目！

⚙️ 安装要求和过程
快速开始（30秒上手）：
1. 终端1：启动记忆服务器
  npx @agentmemory/agentmemory
2. 终端2：体验演示
  npx @agentmemory/agentmemory demo
3. 打开 http://localhost:3113 查看实时记忆构建过程
👍 Claude Code 用户

一行命令搞定：

/plugin marketplace add rohitg00/agentmemory

/plugin install agentmemory
👨‍💻 其他代理（Cursor/Cline/Windsurf等）

在MCP配置中添加：
```
{
  "mcpServers": {
    "agentmemory": {
      "command": "npx",
      "args": ["-y", "@agentmemory/mcp"]
    }
  }
}
```
💡 核心功能
- 🔍 智能检索：BM25 + 向量 + 知识图谱三路混合搜索，R@5准确率达95.2%
- 💾 4层记忆架构：Working → Episodic → Semantic → Procedural，类比人类记忆的运作方式
- 📌 自动捕获：12个hooks自动记录所有操作，零手动操作
- 🔒 隐私优先：API密钥、私有标签在存储前自动剥离
- 📈 极低成本：年省约170K tokens，年成本仅$10（用本地embeddings可降到$0）
🖥️ 典型使用场景
📈 场景1：长期项目维护

当你要维护一个半年前的项目时，agentmemory能自动回忆：
- 之前为什么选择这个技术方案
- 哪些文件被频繁修改及原因
- 代码规范和架构决策
👥 场景2：团队协作

多个开发者使用同一项目，agentmemory支持命名空间隔离的团队记忆，共享知识同时保留个人偏好。

🔋 场景3：复杂调试

遇到之前解决过的类似bug？记忆系统能追溯到原始观察，帮你快速定位。

⭐ 推荐理由

用了快一个月了，最直观的感受是：每次开新会话，Claude真的能“想起来”上次在做什么。调试效率提升明显，因为不再需要反复解释项目背景。

最让我惊喜的是隐私保护——它会自动过滤敏感信息，这点对于企业项目非常重要。

另外，完全零外部依赖（仅需SQLite），安装和迁移都很轻量。

📥 下载地址
- 🏠 GitHub：https://github.com/rohitg00/agentmemory
- 🌐 官网：https://agent-memory.dev
- 📖 iii引擎文档：https://iii.dev/docs
2026年5月13日
前沿AI网络攻击能力突破阈值：Claude Mythos率先通过32步攻击测试
说出来你可能不信，但AI驱动的网络进攻是遥远未来这个判断，已经被数据彻底推翻了。

AISI的测试结果让人睡不着觉

英国AI安全研究所（AISI）最近做了一件事：他们让Anthropic的Claude Mythos Preview去跑一个32步的「最后一批」（TLO）测试范围。这个测试范围是什么概念？它是一个模拟企业网络的完整攻击链路，从侦察到完全域控制，通常需要人类红队投入20个小时才能走完。

结果呢？Mythos在10次运行中成功了3次。

说实话，第一次看到这个数据的时候我没太当回事——10次成3次，成功率30%，好像也不怎么样？但AISI的评估接着说：在专家级任务上，Mythos的成功率达到73%。

这就很恐怖了。

OpenAI的GPT-5.5几乎同步追上

更让人不安的是时间线。Claude Mythos公布结果3周后，OpenAI的GPT-5.5公布了几乎完全一致的能力画像：
- 10次端到端测试中成功2次
- 专家级任务成功率71.4%
- 同样存在无防御方的测试限制条件
两个模型的能力曲线几乎重合。这不是巧合，而是前沿AI在网络进攻能力上已经形成了稳定的技术范式。

每4个月翻倍意味着什么？

AISI估计，当前前沿进攻性网络能力每4个月翻倍。

等等，这个速度比2025年底的每7个月翻倍还要快。如果按这个速度线性外推（虽然实际是指数增长），到2026年底，前沿AI可能就能在无人干预的情况下完成绝大多数中级红队任务。

我觉得这里有个被严重低估的风险：当前的基准测试如果没有对抗性防御层，根本区分不出前沿模型的能力差异。换句话说，我们可能根本不知道AI在网络进攻上到底有多强，因为我们的测试环境太友好了。

传统网络安全厂商的生存危机

这个变化最直接的受害者是谁？是那些依赖静态签名、规则的传统网络安全厂商。

它们的护城河——特征库、规则集、人工分析的专家经验——正在被进攻性AI循环超越。AISI的报告直言不讳：传统检测手段已经过时了。

那谁有机会活下来？CrowdStrike、Palo Alto、Microsoft Defender这些集成了XDR平台的厂商，它们掌握着防御智能体所需的编排层。但前提是它们能推出真正的AI原生架构，而不是把传统技术栈包装一下就号称AI驱动。

一个值得深思的悖论

这里有个我很在意、但行业讨论不多的悖论：

我们正在用AI来防御AI驱动的网络进攻。但防御AI需要的数据、算力、响应速度，和传统安全工具完全不在一个量级上。这不只是技术升级的问题，而是整个安全行业的基础设施要重构的问题。

而那些手里握着大量防御数据的平台厂商，会不会借此形成新一轮的垄断？

参考资料：State of AI: May 2026, Air Street Press, AISI Assessment Report
2026年5月13日

作者： hiyoho

我试了Claude Code

那些只服务于一个人的app

为什么现在才行？

从100万智能体到开发者平台

数据库同步是关键

几个值得关注的亮点

智能体是什么？说白了就是能自己干活儿的AI

安全可控是底线，创新驱动是方向

19个场景定了哪些方向？

15个月，30倍增长

算力争夺战：马斯克送来22万块GPU

全球第11大上市公司

Google在重新发明鼠标

阿里把AI变成了印钞机

真正的竞争刚刚开始

五强模型，差距越来越小

选模型的新逻辑

核心升级：减少幻觉+保持速度

数据说话：AIME数学能力暴增

记忆系统升级：Gmail集成是个杀手级功能

GPT-4o退役的教训

我的看法

从“回答问题”到“替你干活”

“Vibe Coding”：普通人也能做Widget开发者

Gboard也要被AI重塑了

我的看法

🎯 项目简介

⚙️ 安装要求和过程

💡 核心功能

🖥️ 典型使用场景

⭐ 推荐理由

📥 下载地址

AISI的测试结果让人睡不着觉

OpenAI的GPT-5.5几乎同步追上

每4个月翻倍意味着什么？

传统网络安全厂商的生存危机

一个值得深思的悖论