博客

  • AI智能体不能再”自由发挥”了:三部门联合发文划定决策边界

    AI智能体以后不能想干嘛就干嘛了。前脚AI Agent赛道火得一塌糊涂,后脚监管就来了——国家网信办、国家发展改革委、工业和信息化部三部门联合印发了《智能体规范应用与创新发展实施意见》,给AI智能体的发展套上了”笼子”。

    智能体是什么?说白了就是能自己干活儿的AI

    官方给智能体下了个定义:具备自主感知、记忆、决策、交互与执行能力的智能系统。翻译成人话就是——它能自己看、自己想、自己做决定、自己干活。随着大模型技术成熟,智能体正在加速跟网络空间、物理世界深度融合,这玩意儿要是不管一管,确实容易出事儿。

    智能体决策权限划分为三个层级:仅限用户本人决策、需由用户授权决策、智能体自主决策——明确划定各种决策方式的合理边界及所需权限

    安全可控是底线,创新驱动是方向

    《意见》提出了四大基本原则:安全可控、规范有序、创新驱动、应用牵引。具体举措主要围绕四个方面:夯实技术底座和标准协议、守牢安全底线和防范风险、强化19个典型应用场景牵引、建设创新生态促进产业合作。

    19个场景定了哪些方向?

    应用场景覆盖五大方向:科学研究、产业发展、提振消费、民生福祉、社会治理。《意见》还提出了一个量化目标:新一代智能终端、智能体等应用普及率要超70%。说实话,这个覆盖率目标挺激进的,意味着三年内智能体要从”尝鲜”变成”标配”。

    我觉得这次监管来得挺及时的。之前看到各种AI Agent产品一个比一个激进,各种”全自动”、”自主执行”吹得天花乱坠,普通用户根本搞不清楚这些AI到底能自己做什么主。现在好了,官方给你划清楚——哪些必须人拍板、哪些可以授权、哪些AI能自己定。这有点像给AI立了个”交规”,接下来就看执行力度了。


  • 1.2万亿美元!Anthropic估值正式反超OpenAI,硅谷王座彻底易主

    说实话,我一直以为OpenAI稳坐AI领域头把交椅来着,结果这两天看到一个数据把我惊到了——Anthropic的估值居然飙到1.2万亿美元,正式超过OpenAI了。

    15个月,30倍增长

    你们知道Anthropic的CEO Dario Amodei之前透露了什么吗?他说今年第一季度,Anthropic的年化收入(ARR)和使用量同比暴涨了80倍。原本他们定的目标才10倍,没想到直接翻了好几倍。这增长引擎主要是Claude Code——这款去年底上线的编程工具在开发者圈子里扩散速度太快了。

    ARR从2025年初的10亿美元飙升到2026年4月的300亿美元,15个月完成30倍增长,Pre-IPO市场隐含估值触及1万亿美元

    算力争夺战:马斯克送来22万块GPU

    Anthropic这波增长太猛了,据说原来的算力直接”炸锅”限流了。关键时刻马斯克出手,SpaceX的Colossus 1数据中心把全部算力都给了Anthropic——整整300兆瓦计算能力,22万块英伟达顶级GPU。这还没完,Google又签了个五年2000亿美元的大单,占谷歌云合同积压总额的40%以上。

    AI算力基础设施建设
    Anthropic构建的庞大算力帝国

    全球第11大上市公司

    如果按这个估值上市,Anthropic直接就是全球第11大上市公司了,前面是苹果、微软、英伟达、亚马逊、Alphabet、Meta、台积电、博通、特斯拉、沙特阿美这些巨头。老实讲,这个排名确实有点魔幻。

    我觉得吧,Anthropic能反超OpenAI,关键还是Claude系列在企业市场站稳了脚跟。Dario Amodei之前一直在强调”负责任的AI”,没想到这套理念在商业上也挺吃香。不过话说回来,1.2万亿的估值需要到2029年收入增长20-30倍才能支撑,这个目标也是相当激进的。AI圈的故事,越来越有意思了。


  • 模型不卷了,卷系统:AI行业正在发生一场安静的大转向

    如果你最近还在盯着各种模型排行榜看谁又拿了第一,我建议把注意力挪一挪。AI行业正在发生一个不太显眼但我觉得更重要的变化——从”模型竞赛”转向”系统竞争”。说白了,比的不是谁家模型最聪明了,而是谁能把AI塞进你的日常流程里让你真正用起来。

    AI正在从”看它能做什么”的阶段,进入”它在这套系统里扮演什么角色”的阶段。模型变得越来越不可见,但越来越有价值。

    Google在重新发明鼠标

    Google DeepMind前两天搞了个叫Magic Pointer的东西,我觉得这个概念比大多数新模型发布都有意思。简单说就是给鼠标指针加上AI能力——你不用打开对话框输入提示词,直接指向屏幕上的东西,AI就知道你想干嘛。指向一段文字,它能帮你改写;指向航班信息,它直接给你查详情和比价。

    这背后的思路其实挺颠覆的。以前我们跟AI交互的方式是打开一个聊天窗口,然后在里面描述需求。DeepMind觉得这不自然,为什么不让AI来适应你已有的操作习惯?你在任何界面里想做什么,指一下就行了。目前这个功能已经在Google AI Studio上线演示版,Chrome浏览器里的Gemini助手也开始支持了。

    阿里把AI变成了印钞机

    说完交互,再看看商业化这块。阿里刚发了最新季度的财报,云计算智能部门收入达到416.3亿元,同比增长38%。整体营收才涨了3%,但这38%的增长让我眼前一亮。AI产品目前占外部云收入的30%,阿里预计一年内能超过50%。

    他们的Qwen聊天机器人已经整合进了淘宝和天猫,用户可以像跟朋友聊天一样浏览和下单。企业端的悟空智能体工具也在铺开。阿里甚至说原定的三年3800亿AI投资计划可能会超标,因为早期回报太好了。财报发布后股价涨了7%以上,市场用真金白银给AI商业化投了票。

    真正的竞争刚刚开始

    把这些消息放在一起看,趋势很明显:微软在推Agent 365做企业AI治理,Google在用Gemini Intelligence把Android变成一个主动式的AI操作系统,S&P Global把垂直领域专业知识跟GenAI结合做金融决策支持。大家都不再执着于”谁的模型参数大”这种话题了。

    • 竞争焦点从模型能力转向分发渠道、界面体验和治理框架
    • Google Gemini Intelligence今夏上线最新款手机,手表、汽车、眼镜陆续跟进
    • OpenAI审判从商业纠纷演变成AI行业治理的标志性事件
    • 垂直领域AI(如金融研究)正在证明比通用AI更有商业护城河

    我的感受是,2026年的AI正在变成一种”基础设施”——你不太会注意到它的存在,但它确实在改变你跟电脑交互的方式、你购物的体验、你获取信息的方法。这种变化比”模型又刷新了榜单”这种新闻实际得多,也重要得多。


    接下来真正值得关注的不是哪家公司又发布了新模型,而是谁先打通了”模型到场景”的最后一公里。这场仗,才刚开始。

  • GPT-5.5卖180刀,DeepSeek只收0.28刀:大模型价格战到底卷到了什么程度

    最近看到一个数据,差点把咖啡喷出来——GPT-5.5每百万token要180美元,而DeepSeek V4 Flash只要0.279美元。算一下,价差645倍。这什么概念?相当于一辆法拉利和一辆五菱宏光的差距。但问题在于,五菱宏光在日常通勤里可能比法拉利好使。

    有人做了个实验,把同一个任务分别扔给GPT-5.5、Claude Opus、Gemini 3.1 Flash和DeepSeek V4 Flash跑了一遍。结果挺有意思:写复杂代码、做多步推理、处理那种模糊需求的时候,GPT-5.5确实强得离谱,能读懂你话里的潜台词。但换成整理文档、写周报、翻译邮件、分析数据这些日常活儿,四个模型基本看不出区别。

    2024年同等水平的推理成本是20美元/百万token,两年后的今天降到了0.07美元。两年内下降了280倍。

    五强模型,差距越来越小

    现在市面上的头部模型——GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、DeepSeek V3和Kimi K2.5,在Elo评分榜上的差距已经压缩到只有2.7%。说实话,这个差距在大多数使用场景下根本感知不到。以前大家比的是”谁更聪明”,现在核心问题变成了:这个模型适合我的场景吗?预算用得起吗?跟我现有的工具链能接上吗?

    训练成本的变化也挺魔幻的。DeepSeek V3的训练成本是557万美元,而GPT-4的训练据说超过1亿美元。差了将近16倍。但输出质量呢?日常使用几乎拉不开差距。我觉得DeepSeek赢的不只是价格,更是证明了”够用”这个概念的商业价值。

    选模型的新逻辑

    现在业内的共识已经变了——不是找最强的,是找最对口的。通用任务和自动化工作流用GPT-5.4,长文档处理和高质量代码用Claude Opus 4.6,多模态理解用Gemini 3.1 Pro,成本敏感和中文场景用DeepSeek V3,超长上下文需求就上Kimi K2.5。

    • Claude的百万级上下文不是噱头,整个代码库扔进去分析是真的好用
    • DeepSeek V4 Flash的100万token窗口能塞进大型代码仓库
    • GLM-4.7在华为昇腾上训练,直接把推理价格压到行业最低的0.11美元
    • Claude Token消耗比GPT高出55%,长文档场景要掂量钱包

    老话说得好,你不会开法拉利去买菜,同样也没必要用GPT-5.5写周报。对普通团队来说,以前调一次API几块钱,做大项目光模型成本就上百万。现在一个中小团队花几千块能用一年。这种成本的崩塌速度,说实话超出了我去年最乐观的预期。


    2026年的AI行业像极了2010年的智能手机市场。还在拼参数的公司可能被讲性价比的公司打得找不着北。真正的战场已经不是模型本身了,而是Agent、工具链和工作流整合。模型只是基础设施,谁能让AI真正干活,谁才是赢家。

  • OpenAI发布GPT-5.5 Instant:减少幻觉、接入Gmail,大模型进入“可靠性竞赛”

    OpenAI发布GPT-5.5 Instant:减少幻觉、接入Gmail,大模型进入“可靠性竞赛”

    OpenAI又更新了,这次是GPT-5.5 Instant。说实话,大模型更新越来越频繁了,但这次有几个点我觉得确实值得关注。

    核心升级:减少幻觉+保持速度

    GPT-5.5 Instant取代了GPT-5.3 Instant,成为ChatGPT的新默认模型。从参数命名上就能看出来,这是一个侧重”即时响应”的版本。OpenAI这次最强调的改进是在法律、医疗、金融这些敏感领域减少了幻觉问题,同时保持了前代的低延迟。

    我觉得这个方向非常务实。说实话,现在的大模型在闲聊、写文案方面已经足够好了,真正让人不放心的反而是那些需要精确性的专业场景。如果GPT-5.5 Instant真的能显著降低医疗和法律领域的幻觉率,那这对于AI的实际落地来说,比数学竞赛分数提高几十个点要有意义得多。

    数据说话:AIME数学能力暴增

    不过数字确实也很漂亮。AIME 2025数学测试成绩从65.4直接飙升到81.2,提升了约24%。MMMU-Pro多模态推理从69.2涨到76。虽然AIME和普通人的日常使用场景关系不大,但这至少说明模型的基础推理能力确实在稳步提升。

    我比较关注的是,这种推理能力的提升能不能真正转化为日常使用中的体验改善。比如你在让它分析一份复杂报告的时候,是不是能给出更有深度的见解?在处理逻辑推理类问题的时候,是不是不那么容易”犯蠢”了?这些才是普通用户真正在乎的。

    记忆系统升级:Gmail集成是个杀手级功能

    这次更新中我认为最值得关注的功能,其实是上下文管理(Context Management)的升级。GPT-5.5 Instant现在可以搜索和回溯你过去的对话、文件,甚至直接访问你的Gmail。

    这意味着什么?意味着ChatGPT正在从一个”聪明的对话工具”变成一个”了解你的个人助手”。它能记住你之前的偏好、搜索你之前的文档、甚至查看你的邮件内容来给出更个性化的回答。

    当然,隐私问题也随之而来。OpenAI这次的应对方案是:记忆来源透明化——ChatGPT会在所有模型中显示记忆来源,帮助用户了解答案的生成依据。而且用户可以删除过时的记忆来源或纠正错误答案。分享对话时,接收方也看不到记忆来源。我觉得这些措施算是做到了最基本的隐私保护,但对于更敏感的用户来说,可能还不够。

    GPT-4o退役的教训

    说到这里,不得不提一下GPT-4o退役的事。今年2月份GPT-4o正式弃用的时候,用户的反弹非常强烈。有些人甚至发起了请愿,把GPT-4o描述为”最好的朋友”。这听起来有点夸张,但我觉得它反映了一个真实的问题:当AI工具成为人们日常生活的一部分时,模型更迭就不只是一个技术决策了

    OpenAI这次吸取了教训,GPT-5.3将作为付费用户的可选项保留三个月,而不是直接一刀切地退役。我觉得这个做法更温和也更合理。

    我的看法

    GPT-5.5 Instant给我的整体感觉是:OpenAI正在把大模型从”很聪明的聊天机器人”推向”可靠的个人助手”。减少幻觉是为了让你敢在重要场景用,Gmail集成是为了让它更了解你,记忆来源透明化是为了让你放心用。

    大模型的竞赛已经从”谁的分数更高”变成了”谁更可靠、更实用”。这个转变我认为对整个行业来说是个好信号。毕竟,分数再高,如果普通用户不敢放心使用,那也只是实验室里的玩具而已。

  • Google在Android端放大招:Gemini不只是助手,而是你的“超级代理”

    Google在Android端放大招:Gemini不只是助手,而是你的“超级代理”

    说实话,看完Google在Android Show: I/O Edition上发布的内容,我觉得移动端AI的竞争正式进入了一个全新阶段。这次的更新不是简单地在手机上加个AI按钮,而是直接让Gemini变成一个能跨应用、跨场景帮你干活的“超级代理”。

    从“回答问题”到“替你干活”

    我觉得这次最核心的变化,是Gemini从被动式的问答工具升级成了主动式的任务执行者。具体来说,你现在长按电源键,对着Gemini说“帮我把笔记里的购物清单加到购物车里”,它就能自动跨应用完成这个操作——先去你的笔记App找到清单,再去购物App把商品逐一添加,最后等你确认后完成下单。

    这不是概念演示,Google说这些功能今年夏天就会在三星Galaxy和Pixel设备上率先上线。我觉得这个节奏其实挺有意思的:三星作为最大的Android厂商优先适配,说明Google在生态合作上确实下了功夫。

    不过说实话,这个多步骤任务执行功能让我既兴奋又有点担心。兴奋是因为它确实能大幅提升效率,尤其是那些需要反复切换App的操作流程。担心的是,当AI开始替你点击“确认付款”按钮的时候,隐私和安全性就成了绕不开的问题。Google在表单填写功能上采用了opt-in模式(默认关闭),这个做法我觉得是对的,给了用户充分的控制权。

    “Vibe Coding”:普通人也能做Widget开发者

    这次发布会上还有一个让我眼前一亮的功能——“Create My Widget”。简单来说,你只需要用自然语言描述你想要什么功能的小组件,AI就能帮你生成出来。

    比如你可以说“每周给我推荐三个高蛋白备餐食谱”,然后一个符合Material 3设计规范的Widget就出现在你桌面上了。不需要写一行代码,不需要懂开发。说实话,我觉得这可能是这次发布会中最具“颠覆性”的功能。

    为什么这么说?因为它降低了UI开发的门槛。以前你需要一个开发者才能做的自定义小组件,现在每个人都可以用一句话创建。这种“自然语言即编程”的思路,其实就是AI民主化开发的一个缩影。虽然Nothing公司去年就做过类似的功能,但Google把这种能力整合到了Android系统层面,影响力完全不在一个量级。

    Gboard也要被AI重塑了

    还有一个值得关注的更新是Gboard的语音输入功能。Google给这个新功能起名叫“Rambler”,它不仅能把你说的话转成文字,还能用Gemini的多模态能力理解你的语气,并且自动帮你去掉那些“嗯”“啊”之类的口头禅。

    说实话,语音转文字不是新鲜事,但能做到理解语气、自动润色输出格式,这个体验提升还是挺大的。对于经常需要语音录入的人来说,这绝对是一个实用功能。

    我的看法

    我觉得Google这次在Android端的AI布局,真正瞄准的是一个趋势:AI正在从“工具”变成“代理”。以前我们用AI是去问它问题、让它帮我们分析数据,现在AI开始直接替我们执行操作、完成流程。这种转变对于用户来说,意味着手机使用方式的根本性变化。

    但我也想说一句:这些功能落地后,用户体验好不好,还得看实际表现。跨应用操作能不能稳定运行、误操作率有多高、不同手机厂商的适配情况如何——这些才是真正决定成败的关键因素。

    总的来说,2026年下半年的Android手机,可能会让人觉得越来越像一个“长了脑子”的个人助理。而Google这次交出的答卷,至少在产品思路上,我认为是走在正确方向上的。

  • agentmemory:让AI编程代理拥有持久记忆的神器

    agentmemory:让AI编程代理拥有持久记忆的神器

    agentmemory

    说实话,用Claude Code或Cursor写代码时,最头疼的就是每次开新会话都要重新解释项目结构、代码规范和之前的决策。CLAUDE.md写满了又容易过时,这个痛点真的太普遍了。

    直到我发现了agentmemory——这是一个专门为AI编程代理打造的持久记忆系统,能自动记住一切,彻底告别重复解释。


    🎯 项目简介

    agentmemory是GitHub上排名第一的AI编程代理持久记忆工具,基于真实基准测试构建。它能 silently 捕获编程代理的所有操作,将其压缩成可搜索的记忆,在下次会话时自动注入正确的上下文。

    目前狂揽 5.9k+ Stars,今日增长超过1000 Stars,堪称年度黑马项目!


    ⚙️ 安装要求和过程

    快速开始(30秒上手):

    1. 终端1:启动记忆服务器
      npx @agentmemory/agentmemory
    2. 终端2:体验演示
      npx @agentmemory/agentmemory demo
    3. 打开 http://localhost:3113 查看实时记忆构建过程

    👍 Claude Code 用户

    一行命令搞定:

    /plugin marketplace add rohitg00/agentmemory

    /plugin install agentmemory

    👨‍💻 其他代理(Cursor/Cline/Windsurf等)

    在MCP配置中添加:

    {
      "mcpServers": {
        "agentmemory": {
          "command": "npx",
          "args": ["-y", "@agentmemory/mcp"]
        }
      }
    }

    💡 核心功能

    • 🔍 智能检索:BM25 + 向量 + 知识图谱三路混合搜索,R@5准确率达95.2%
    • 💾 4层记忆架构:Working → Episodic → Semantic → Procedural,类比人类记忆的运作方式
    • 📌 自动捕获:12个hooks自动记录所有操作,零手动操作
    • 🔒 隐私优先:API密钥、私有标签在存储前自动剥离
    • 📈 极低成本:年省约170K tokens,年成本仅$10(用本地embeddings可降到$0)

    🖥️ 典型使用场景

    📈 场景1:长期项目维护

    当你要维护一个半年前的项目时,agentmemory能自动回忆:

    • 之前为什么选择这个技术方案
    • 哪些文件被频繁修改及原因
    • 代码规范和架构决策

    👥 场景2:团队协作

    多个开发者使用同一项目,agentmemory支持命名空间隔离的团队记忆,共享知识同时保留个人偏好。

    🔋 场景3:复杂调试

    遇到之前解决过的类似bug?记忆系统能追溯到原始观察,帮你快速定位。


    ⭐ 推荐理由

    用了快一个月了,最直观的感受是:每次开新会话,Claude真的能“想起来”上次在做什么。调试效率提升明显,因为不再需要反复解释项目背景。

    最让我惊喜的是隐私保护——它会自动过滤敏感信息,这点对于企业项目非常重要。

    另外,完全零外部依赖(仅需SQLite),安装和迁移都很轻量。


    📥 下载地址

  • 前沿AI网络攻击能力突破阈值:Claude Mythos率先通过32步攻击测试

    说出来你可能不信,但AI驱动的网络进攻是遥远未来这个判断,已经被数据彻底推翻了。

    AISI的测试结果让人睡不着觉

    英国AI安全研究所(AISI)最近做了一件事:他们让Anthropic的Claude Mythos Preview去跑一个32步的「最后一批」(TLO)测试范围。这个测试范围是什么概念?它是一个模拟企业网络的完整攻击链路,从侦察到完全域控制,通常需要人类红队投入20个小时才能走完。

    结果呢?Mythos在10次运行中成功了3次。

    说实话,第一次看到这个数据的时候我没太当回事——10次成3次,成功率30%,好像也不怎么样?但AISI的评估接着说:在专家级任务上,Mythos的成功率达到73%

    这就很恐怖了。

    OpenAI的GPT-5.5几乎同步追上

    更让人不安的是时间线。Claude Mythos公布结果3周后,OpenAI的GPT-5.5公布了几乎完全一致的能力画像:

    • 10次端到端测试中成功2次
    • 专家级任务成功率71.4%
    • 同样存在无防御方的测试限制条件

    两个模型的能力曲线几乎重合。这不是巧合,而是前沿AI在网络进攻能力上已经形成了稳定的技术范式。

    每4个月翻倍意味着什么?

    AISI估计,当前前沿进攻性网络能力每4个月翻倍

    等等,这个速度比2025年底的每7个月翻倍还要快。如果按这个速度线性外推(虽然实际是指数增长),到2026年底,前沿AI可能就能在无人干预的情况下完成绝大多数中级红队任务。

    我觉得这里有个被严重低估的风险:当前的基准测试如果没有对抗性防御层,根本区分不出前沿模型的能力差异。换句话说,我们可能根本不知道AI在网络进攻上到底有多强,因为我们的测试环境太友好了。

    传统网络安全厂商的生存危机

    这个变化最直接的受害者是谁?是那些依赖静态签名、规则的传统网络安全厂商。

    它们的护城河——特征库、规则集、人工分析的专家经验——正在被进攻性AI循环超越。AISI的报告直言不讳:传统检测手段已经过时了

    那谁有机会活下来?CrowdStrike、Palo Alto、Microsoft Defender这些集成了XDR平台的厂商,它们掌握着防御智能体所需的编排层。但前提是它们能推出真正的AI原生架构,而不是把传统技术栈包装一下就号称AI驱动。

    一个值得深思的悖论

    这里有个我很在意、但行业讨论不多的悖论:

    我们正在用AI来防御AI驱动的网络进攻。但防御AI需要的数据、算力、响应速度,和传统安全工具完全不在一个量级上。这不只是技术升级的问题,而是整个安全行业的基础设施要重构的问题。

    而那些手里握着大量防御数据的平台厂商,会不会借此形成新一轮的垄断?


    参考资料:State of AI: May 2026, Air Street Press, AISI Assessment Report

  • 中国AI编码模型打破”落后6-9个月”框架:开源权重+低成本改写全球格局

    说实话,当我看到2026年4月这波中国AI编码模型的密集发布时,第一反应是:那个”中国AI落后6-9个月”的老框架,真的该扔进历史垃圾桶了。

    12天,4家实验室,一场静悄悄的能力赶超

    从4月底到5月初,短短12天里,4家中国AI实验室接连发布了各自的最新编码模型,而且全部是开源权重。这可不是小打小闹的demo,而是实打实能打的工程级模型:

    • Z.ai的GLM-5.1
    • MiniMax的M2.7
    • Moonshot的Kimi K2.6
    • DeepSeek的V4

    最关键的是,它们在SWE-Bench Pro这个权威编码基准上的得分全部落在56-59分区间——什么概念?这个得分已经和西方前沿模型持平了。

    价格才是真正的杀手锏

    如果能力持平还不够震撼,那成本数据绝对让你倒吸一口凉气:这4款模型的推理成本,最高不超过Claude Opus 4.7的三分之一

    我觉得这里有个被很多人忽略的逻辑:AI能力如果可以低价获取,那么”前沿模型的护城河”到底在哪里?如果Kimi K2.6或者DeepSeek V4能以1/3的价格做到Opus 4.7差不多的事情,那企业采购决策会不会悄然生变?

    这不是简单的性价比问题,而是整个AI供应链的话语权在转移。

    “落后6-9个月”为什么不成立?

    State of AI报告里有一句话我很认同:”中国落后6-9个月”的旧框架在智能体编码领域已不成立

    NIST的CAISI评估显示,DeepSeek V4的跨域基准综合表现落后美国前沿约8个月,但DeepSeek自己的模型卡显示V4-Pro与Opus 4.6、GPT-5.4持平。两个结论都是对的——只不过评估的维度和基准不同而已。

    这其实揭示了一个更深的真相:AI能力的比较,已经不再是单一时间轴上的先后问题,而是评估者、支架工程、基准设计的综合博弈。当多个最优模型来自中国且为开源权重时,”追赶者”这个标签就已经失效了。

    开源权重:中国AI的”农村包围城市”?

    还有一个细节值得琢磨:这4款模型全部开源权重。我觉得这不是巧合,而是一种极其聪明的战略选择。

    开源意味着什么?意味着全球开发者可以本地部署、可以微调、可以嵌入自己的产品而不用看任何人的脸色。当西方实验室还在纠结”该不该开源”的时候,中国实验室已经用开源完成了全球开发者生态的布局。

    Kimi K2.6发布时展示了一个12小时连续工具使用轨迹,演示了将推理引擎移植到Zig的完整过程——这种”晒能力”的方式本身就很有说服力,比发一篇论文直观多了。

    这件事的真正影响可能还没显现

    我觉得现在讨论”中国AI是否赶超”还为时尚早,但有一个趋势已经很清晰了:在整个AI领域最具经济影响力的能力(编码和智能体工程)上,多个最优模型来自中国且为开源权重,这件事的长期影响可能被严重低估了。

    企业采购、开发者工具链、云服务定价、甚至AI安全的研究议程——所有这些都将因为这个变化而重新调整。我不是在说”中国AI已经全面领先”,而是说”全面落后”这个叙事已经失去了事实基础。


    参考资料:State of AI: May 2026, Air Street Press

  • TradingAgents:用多智能体协作做金融交易决策,GitHub 7.3万星

    TradingAgents:用多智能体协作做金融交易决策,GitHub 7.3万星

    TradingAgents架构图

    📋 项目简介

    TradingAgents 是一个多智能体LLM金融交易框架,模拟真实交易公司的运作方式——部署基本面分析师、情绪分析师、技术分析师、交易员和风控团队等多个专业AI智能体,通过协作讨论来评估市场状况并做出交易决策。

    项目目前在GitHub上已获得 73,887 ⭐,本周新增 7,259 颗星,热度持续攀升中!🔥

    🛠️ 安装要求和过程

    环境要求

    • Python 3.10+
    • 至少一个LLM API密钥(OpenAI / Google / Anthropic / DeepSeek / Ollama等均可)
    • Alpha Vantage API密钥(用于获取市场数据,免费注册即可)

    快速安装

    # 克隆仓库
    git clone https://github.com/TauricResearch/TradingAgents.git
    cd TradingAgents
    
    # 创建虚拟环境
    conda create -n tradingagents python=3.13
    conda activate tradingagents
    
    # 安装依赖
    pip install .
    
    # 设置API密钥
    export OPENAI_API_KEY=your_key_here
    export ALPHA_VANTAGE_API_KEY=your_key_here
    
    # 启动交互式CLI
    tradingagents

    🐳 Docker用户:

    cp .env.example .env  # 填入你的API密钥
    docker compose run --rm tradingagents

    如果想用本地模型(Ollama),还可以:

    docker compose --profile ollama run --rm tradingagents-ollama

    ⚡ 核心功能

    1. 🧠 多智能体协作架构:模拟真实交易公司的团队分工,包括基本面分析师、情绪分析师、新闻分析师、技术分析师、看涨/看跌研究员、交易员、风控团队和投资组合经理,共8大角色协同工作。
    2. 🤖 多LLM支持:兼容OpenAI、Google Gemini、Anthropic Claude、xAI Grok、DeepSeek、Qwen、GLM、MiniMax、OpenRouter,还支持Ollama本地部署和Azure OpenAI等企业级方案。
    3. 💾 持久化决策日志:记录历史决策和收益表现,让智能体从过去的经验中学习,越用越聪明。
    4. 🔄 断点续跑:运行中断后可从上次成功步骤恢复,不怕意外崩溃丢失进度。
    5. 📊 交互式CLI:通过命令行界面选择股票代码、日期、LLM模型和研究深度,操作简单直观。

    🎯 典型使用场景

    1. 📈 个人投资研究助手:我平时关注几只科技股,用TradingAgents可以让多个AI分析师从不同角度评估一只股票——基本面、技术面、市场情绪一次性看全,比我自己翻研报效率高太多了。比如分析NVDA,它会自动调用基本面数据、近期新闻、Reddit讨论,然后给出综合判断。
    2. 🏫 金融AI研究实验:项目附带了学术论文(arXiv:2412.20138),如果你在做LLM+金融方向的研究,可以直接基于这个框架做对比实验、消融实验,代码结构清晰,改起来很方便。
    3. 🎓 量化交易学习与实践:想入门量化交易但又不想从零搭建系统的同学,TradingAgents提供了一个完整的端到端框架。从数据获取、多维度分析到交易决策和风控,全流程覆盖,而且支持DeepSeek、Ollama等本地模型,零成本就能跑起来。

    💡 推荐理由

    说实话,我试用过不少AI交易工具,但大部分要么太简单(单模型单任务),要么太黑盒(不知道AI为什么这样决策)。TradingAgents不一样——它的多智能体辩论机制让我印象深刻。看涨研究员和看跌研究员会针对同一只股票展开辩论,最终由交易员综合双方观点做出决策。这种机制比单一模型直接输出”买”或”卖”要透明得多,你清楚地知道决策背后的逻辑。

    另外,对国内用户很友好:支持DeepSeek、Qwen、GLM等国产模型,还区分了国内版和国际版的API密钥,Ollama本地部署也很丝滑。即使没有海外API,照样能用。

    ⚠️ 友情提醒:项目明确标注仅供研究用途,不构成投资建议。股市有风险,AI也有幻觉,千万别直接拿它的输出当交易信号。

    🔗 下载地址