博客

  • Asana 75亿美元收购无代码AI智能体平台 StackAI

    工作效率平台 Asana 宣布以75亿美元收购无代码 AI 智能体构建器 StackAI,这是它向”AI原生工作平台”转型的关键一步。StackAI 的两位创始人 Tony Rosinol 和 Bernard Aceituno 将随收购加入 Asana。

    Asana AI workflow
    (图源:Getty Images / TechCrunch)

    Asana 把这次收购定位为”人类与 Agent 团队协作操作系统”路线图的一部分。StackAI 做的事其实挺有意思——它让没有技术背景的人也能搭建能在企业现有系统里跑的 AI Agent,可以接入 Salesforce、Slack、GSuite 这些数据源。

    StackAI 是 YC 2023年冬季批次孵化的项目,累计融资约2000万美元,最近一轮1600万美元的A轮投资方包括 Gradient、Epaklon Capital、Lobby VC、LifeX Ventures 以及 Vercel CEO Guillermo Rauch。

    为什么要买它

    Asana 过去几年陆续推出了 AI Studio(Agent 构建器)和 AI Teammates(预制自动化流程)等产品,但面对 OpenAI、Anthropic 这些大模型公司的”降维打击”,光靠自己的技术积累有点吃力。StackAI 的价值在于它已经打通了企业常用系统的数据管道,而且不需要写代码——这对 Asana 的核心用户群(项目经理、运营团队)来说门槛刚刚好。

    当然竞争也不小。Zapier 这类老牌自动化工具在拼命加 AI 功能,大模型公司也在推自己的 Agent 平台。Asana 的优势是它已经嵌进了成千上万家公司的日常工作流里,这是 OpenAI 没有的数据上下文。

    Asana 自己的坎


    但这家公司日子并不好过。ChatGPT 问世以来,Asana 的市值跌了一半还多。今年3月创始人 Dustin Moskovitz 卸任 CEO,由 Dan Rogers 接手。新管理层的赌注就是”人+Agent”协作这个方向——今天这笔收购是这个战略的最新落地动作。

    Dan Rogers 在声明里说:”这次收购加速了我们的路线图,把我们带进人机协作的下一个阶段。AI Teammates 和 AI Studio 已经让我们看到了势头,StackAI 现在能让用户走得更远——把最复杂的业务流程端到端地’Agent 化’。”

    75亿美元的价格不便宜,但对一家想在工作流 AI 赛道翻盘的公司来说,这可能是不得不下的注。

  • Anthropic完成650亿美元融资,IPO前估值逼近1万亿美元

    Anthropic今天宣布完成650亿美元H轮融资,投后估值9650亿美元——距离”万亿俱乐部”只差350亿。这很可能是它登陆公开市场前的最后一轮私募融资。

    Anthropic Claude AI
    Anthropic 总部(图源:Anthropic 官方)

    本轮由 Altimeter Capital、Dragoneer、Greenoaks、Sequoia Capital、Capital Group、Coatue、D1 Capital Partners 联合领投。机构的名单里还有 Baillie Gifford、Blackstone、Brookfield、D.E. Shaw Ventures、DST Global、Fidelity 这些名字。

    本轮中有150亿美元来自此前已承诺的”超大规模云厂商”投资,其中包括亚马逊4月宣布的50亿美元。三星、SK海力士、美光这三家芯片产业链公司也作为战略投资方入局。

    钱要花在哪里

    Anthropic 说这笔钱会用来推进安全与可解释性研究、扩充算力以满足 Claude 快速增长的企业客户需求,以及扩大产品和合作伙伴关系。

    值得注意的是,融资消息发布当天 Anthropic 同步推出了 Claude Opus 4.8,这个新版本在 Agent 任务和多步推理上有明显提升。据彭博社报道,Anthropic 还在准备把之前只限量发布的网络安全模型 Mythos 向更广泛的用户开放。

    盈利拐点要到了

    公司的营收运转率(run-rate revenue)本月刚突破 470亿美元。《华尔街日报》援引知情人士说法称,Anthropic 预计本季度将迎来首个经营盈利季度——营收同比增长130%能把一家AI公司从”烧钱”拉到”赚钱”。


    Altimeter Capital 创始人 Brad Gerstner 的说法更直接:”Claude 的最新进展让全球最挑剔的企业客户大规模采用。这种势头让 Anthropic 站在了下一阶段AI创新的最前沿。”

    当然,IPO之前还要跟 OpenAI 正面竞争。OpenAI 3月完成1220亿美元融资,投后估值8520亿美元。马斯克的 SpaceX(已合并 xAI)则瞄准2万亿美元估值,计划IPO募资逾750亿美元。AI大模型公司的估值竞赛,数字已经大到失去了直观意义。

  • Google I/O 2026:搜索框正在消失,AI代理替你做决定

    谷歌的核心属性是什么?过去二十年里,答案一直是”搜索”。你打开浏览器,在搜索框里输入问题,谷歌返回十个蓝色链接。

    但这个模式正在发生根本性的变化。Google I/O 2026展示的愿景是:AI代理会主动完成搜索,甚至无需你触发、参与或知情。

    在谷歌构想的搜索场景中,大量搜索行为不再由用户主动发起。这也引发了一个核心疑问:在AI主导搜索的新形态下,谷歌还能被称为”搜索引擎”吗?

    Sundar Pichai 的赌注

    The Verge的主编Nilay Patel前往Google I/O 2026现场,采访了谷歌CEO Sundar Pichai。两人的对话围绕几个核心方向展开:搜索功能的变革方向、谷歌在AI生态中的定位信心来源、以及这些变化对互联网未来的影响。

    Pichai的赌注很大:他认为谷歌在AI基础设施、模型能力和用户数据上的积累,使其在”后搜索时代”仍然拥有不可替代的位置。但外界的疑问是:如果AI直接给出答案,用户不再点击链接,谷歌的广告商业模式还能维持吗?

    Sundar Pichai 在 Google I/O 2026
    Sundar Pichai 在 Google I/O 2026 | The Verge

    AI代理购物车的野心

    谷歌在I/O上展示的”通用AI购物车”概念,可能是最值得关注的发布之一。这个AI代理不只是帮你搜索商品,它会追踪价格、提供购买建议、寻找折扣,甚至在合适的时候替你下单。

    这听起来像科幻小说,但谷歌的Demo显示它已经在有限场景下运行了。问题是:用户愿意把购买决策权交给AI吗?这是一个信任问题,不只是技术问题。

    互联网还有未来吗?

    这场变革背后有一个更深层的问题:如果AI代理吞噬了搜索流量,那些依赖搜索流量的网站(媒体、博客、电商平台)还能存活吗?互联网的内容生态是靠”人类点击链接”来维持的,如果点击消失了,内容创作者的收入从哪来?

    • 媒体行业已经在裁员和转型中挣扎
    • 如果AI摘要取代了点击,广告收入将大幅缩水
    • 内容创作者需要新的变现模式,而不是依赖搜索流量

    本周其他值得关注的动态

    除了Google I/O,本周AI行业还有几件事值得记一笔:

    Spotify推出AI功能,可以为每个用户生成专属的每日播客——由AI根据用户的收听历史自动制作。这标志着个性化内容生成正在从文字走向音频。

    YouTube Shorts的AI混剪功能:谷歌让用户可以拿别人的Shorts视频用AI进行混剪。这引发了版权和创作者权益的新一轮争论。

    SpaceX启动IPO,马斯克被列为风险因素——招股书里明确写了:如果马斯克分心过多,或者卷入政治争议,公司业务可能受到不利影响。这大概是IPO招股书里最诚实的风险披露了。

    搜索不会消失,但会变形

    把Google I/O的发布放在一起看,一个清晰的信号是:搜索不会消失,但它会从”你主动提问”变成”AI主动帮你”。这个变化对普通用户来说可能更方便,对依赖搜索流量的整个互联网内容生态来说,却是一个结构性挑战。

    谷歌显然知道这个问题。Pichai在采访中被问到”互联网是否还有未来”时,他的回答是:内容生态会适应,就像过去每一次技术变革一样。但这一次,适应的速度可能比任何人预期的都要快。

  • AI真的在抢走白领工作吗?数据说不

    你肯定也听过这种说法:AI正在吞噬白领工作,软件开发、金融分析、科技公司文案,通通不保。Coinbase、Meta、思科最近一波裁员,更让这种焦虑发酵到了新高度。

    但在你递交辞职信去学水管工之前,值得看看数据到底在说什么。

    简短的答案:目前还没有。尽管到处都是”就业末日”的警告,但几乎没有证据表明AI已经对美国劳动力市场产生了大规模影响。

    失业率数据打脸恐慌论

    美国劳工统计局(BLS)的数据清清楚楚:那些被认为”最容易被AI影响”的职业,失业率反而比受AI影响较小的职业更低。而且,没有任何迹象显示大量劳动者正从”危险职业”涌向”安全职业”(比如体力劳动)。

    前BLS局长埃里卡·麦肯塔弗(Erika McEntarfer)说得很直白:”迄今为止所有可用证据都表明,AI对当前劳动力市场状况的影响目前可能很小。我们从历史中知道,创新需要时间才能渗透到行业变化和职业变化中。AI不太可能在首先改变企业之前就改变劳动力市场。”

    AI与就业市场关系示意图
    MIT Technology Review 配图 | Stephanie Arnett

    年轻人确实在受苦,但原因很复杂

    公平地说,美国就业市场现在对很多人来说都很糟糕,尤其是年轻求职者。最近大学毕业生的失业率约为5.6%,远高于全体工人的失业率水平,这个数字是疫情以来、2008年经济衰退以来都没见过的。

    有迹象表明AI正在加剧22至25岁、寻求软件开发等受AI影响较大职业的年轻人的痛苦。但把这些职业的困境全算在AI头上,目前还缺乏足够证据。

    • AI应该为就业困境承担多少责任?不确定
    • 受AI影响职业中入门级工作的减少,是即将到来的其他职业的预兆,还是仅仅是”低解雇、低招聘”劳动力市场的孤立症状?也不知道

    斯坦福的研究发现了一个关键细节

    斯坦福数字经济实验室的研究人员分析了950个职业,按”AI暴露度”分为五档。他们用了ADP的庞大数据集(比BLS的数据大得多),发现了一个有意思的现象:

    在ChatGPT首次公开发布的2022年底之后,受AI暴露度最高的职业(如软件开发和客户服务)中,22至25岁的员工人数开始下降。到2025年,受AI暴露的职业的入门级工作岗位下降了16%。

    但研究同时发现了一个经常被忽略的关键细节:影响取决于AI的使用方式。那些任务可以”最少人类参与”自动化的工作(比如入门级编码),就业人数减少了;而在AI主要用于增强人类工作的工作岗位,入门级工人的就业人数增长反而快于平均水平。

    “编码知识” vs “隐性知识”

    这项研究提出了一个有趣的解释:入门级工作更多依赖于人们通过教育获得的”编码知识”——这类知识容易被AI模仿。而年长工人有更多的”隐性知识”,即基于经验的那种直觉和判断力,这类智慧目前还很难被AI取代。

    这意味着”边赚边学”的传统职业模式,至少在某些职业里,可能真的被打破了。年轻毕业生的技能可以与AI匹敌,所以他们找不到工作了。


    这次会不一样吗?

    对AI取代工人潜力的焦虑并不是什么新鲜事。2013年就有大量报道描述包括AI在内的一系列新数字技术如何开始威胁白领工作。2016年底,奥巴马总统任期的最后几天,他发布了一份由顶级经济和科学顾问撰写的报告,警告AI正在威胁工人。

    当时AI先驱杰弗里·辛顿说:”人们应该停止培训放射科医生”,因为该职业很快就会被AI取代。当然,这个预测没有成真。AI确实已经成为筛查放射学图像的工具,但放射科医生的数量比以往任何时候都多。

    事实证明,人类放射科医生执行大量有价值的任务,包括解释结果和与患者互动,这些任务目前还无法用AI完成。

    也许这次会不同。AI确实已经获得了做类人任务的难以想象的能力。但之前的AI就业焦虑有一个先见之明的教训:我们真正的关注点应该少放在反乌托邦的恐惧上,更多放在可能影响到数百万人的工作场所的真正过渡上。

    我们需要更好的数据

    哈佛大学经济学教授大卫·戴明说:”我们基本上是在盲目飞行。”目前的数据收集工具并不能充分解释AI如何影响庞大而多样的美国劳动力市场。

    斯坦福数字经济实验室即将启动一个定期更新的项目,提供关于AI如何改变经济的数据。在花费数千亿美元推出AI技术的时候,我们在了解这种过渡上投入的资金甚至不到1%。

  • Cursor Composer 2.5 发布:不换底座、1/10成本追平Claude Opus 4.7

    过去几个月,AI 编程工具的用户有个普遍感受:Claude Code 用起来越来越顺手,Cursor 反而有点掉队。这个局面在5月19日变了——Cursor 发布了 Composer 2.5,直接把基准测试成绩拉到了和 Claude Opus 4.7 同一个水平线。

    有意思的是,这次 Cursor 没有换底座模型,仍然用的是月之暗面开源的 Kimi K2.5 权重,只是把85%的计算量砸进了后训练。换句话说,同样的底座,靠训练手法把成绩硬拉了上去。

    Composer 2.5 在 SWE-Bench Multilingual 拿到79.8%,和 Claude Opus 4.7 的80.5% 只差0.7个百分点。成本却只有后者的约1/10。

    价格才是真正的杀手锏

    具体定价:输入0.5美元/百万token,输出2.5美元/百万token。作为对比,Claude Opus 4.7 的输入定价大约在20美元/百万token量级。差距是数量级的。

    Cursor 为什么要走这条路?直接原因很现实:Cursor 调用 Anthropic 的模型需要付推理费,成本结构是跟着 Anthropic 走的,它没法把 Claude Code 的价格打下来。自研模型是唯一能打出差异化的路径。


    长任务能力是这次的重点

    AI 编程工具的一个核心痛点是:短任务表现都不错,但任务一拉长(多文件修改、跨步骤依赖、几十轮工具调用),模型就容易失忆或者犯低级错误。

    Composer 2.5 针对这个场景做了专项优化。训练方法里有个细节值得说:「功能删除」训练——从可运行代码库里随机删掉某项功能,让模型重新实现并通过测试验证。这种方式生成的训练数据质量远高于人工标注,因为它自带可验证的正确性信号。

    另一个训练技巧是带文本反馈的强化学习。不是等整个任务结束才给一个奖励信号(那样太稀疏,模型很难学到东西),而是在模型执行出错的位置直接插入局部提示——比如工具调用失败时,提示可用工具列表——让模型从错误位置开始就能得到针对性反馈。

    透明性这块,这次学乖了

    上次发布 Composer 2 的时候,Cursor 没有披露模型底座来自 Kimi K2.5,结果被社区扒出来后在 Hacker News 上引发了一轮讨论。这次 Composer 2.5 的发布公告里直接写明了底座来源,算是吃一堑长一智。

    目前 Cursor 内部35%的合并 PR 已经由自主 Agent 创建。这个数据背后意思是:模型不只是给人提供代码建议,而是能独立跑完一个功能分支的开发-测试-提 PR 全流程。Composer 2.5 发布首周,Cursor 用户的模型调用量就翻了一倍。


    下一步是什么

    Cursor 已经宣布正在和 SpaceX AI 合作训练下一代模型,使用 Colossus 2 的百万 H100 等效算力,总计算量会是 Composer 2.5 的10倍。按这个节奏,下一代模型的基准测试成绩还会再往上走一截。

    顺带一提,马斯克在 X 上转了 Composer 2.5 的发布推文,确认了 Colossus 2 参与了部分训练。这条转发本身比任何公关稿都更有分量——意味着这家公司的训练基础设施已经得到了业界最挑剔的那批人的认可。

  • Tesla AI5芯片完成流片:5倍算力、美国双厂代工,剑指Optimus

    马斯克4月15日在X上丢了一句话:AI5已经tape-out了。这条推文在科技圈炸出的水花,比大多数人意识到的要大得多。

    tape-out(流片)在芯片行业里是个分水岭——设计图纸彻底定稿,交给代工厂开始生产,之后不能再改。特斯拉把AI5的设计同时发给了两家工厂:台积电亚利桑那州厂,和三星得克萨斯州泰勒市厂。全部在美国本土生产,这本身就是个信号。

    AI5单芯片算力大约是AI4的8倍,内存容量是9倍,带宽是5倍。双AI5配置的性能对标英伟达Blackwell,但成本不到后者的10%,功耗只有1/3。

    为什么现在需要AI5?

    马斯克自己的说法是:现有AI4已经足够让FSD达到比人类高得多的安全水平。那AI5给谁用?

    答案是Optimus。人形机器人要在真实世界里自主行动,需要处理非结构化环境感知、物体操控、平衡控制、语音交互一堆任务,而且不能靠云端连命——断网就得自己扛。AI5就是为这个场景设计的,足够强的端侧推理能力,功耗还要压得住。

    另一个用途是训练集群。FSD v15的模型参数规模会比现有版本大10倍,Optimus的模型也在同步膨胀,AI5会装进服务器主板(每板5-12颗),成为特斯拉自研训练基础设施的核心。


    量产时间线与更大的棋局

    工程样片预计2026年晚些时候出来,先给Optimus早期测试用。大规模量产瞄准2027年,行业预测2027年中到下半年能落到消费级产品里。

    但特斯拉的节奏比这更快——AI6已经在路上,确定由三星独家代工,预计2026年12月完成流片,2027年量产,单颗算力约是AI5的2倍。Dojo 3超算芯片也在同步研发。特斯拉已经把芯片研发周期压缩到约9个月,比英伟达和AMD的约1年更新节奏要快。

    顺带一提,特斯拉正在得州奥斯汀建自己的芯片制造厂「Terafab」,以后的AI5及后续芯片会逐渐转到自家园子里生产。2026年特斯拉为非汽车项目(Terafab、Cybercab、Optimus)拨了约200亿美元资本支出。

  • 英伟达不再是唯一选择,AI芯片的牌桌正在重新洗牌

    英伟达不再是唯一选择,AI芯片的牌桌正在重新洗牌

    过去几年里,只要你聊到AI算力,所有人的第一反应都是英伟达。这家公司确实走到了一个前无古人的位置——数据中心AI芯片市场占有率一度超过90%,业绩增速让华尔街分析师不停地改预测模型。

    英伟达的巅峰与隐忧

    2026财年英伟达全年营收2159亿美元,同比增长65%。数字很漂亮,但细心的人已经注意到,几个大客户正在悄悄调整采购策略。

  • AI智能体火了:从「聊两句」到「真的帮你干活」

    AI智能体火了:从「聊两句」到「真的帮你干活」

    如果你最近试过让AI帮你订外卖、整理文献、生成科研报告,你可能已经注意到一个变化:AI不再只是坐着和你聊天,它开始动手了。这个变化背后有一个关键词——智能体(Agent)。2026年,这个概念从实验室走到了普通用户的手机屏幕上。

    AI智能体应用场景
    AI智能体正在融入科研、电商、金融等真实工作场景(图源:新华网)

    智能体到底是什么?

    国家网信办等部门2026年5月印发的文件里给了个官方定义:智能体是具备自主感知、记忆、决策、交互与执行能力的智能系统。说人话就是——以前的AI是你问它答,现在的智能体是你告诉它一个目标,它会自己拆解任务、调用工具、执行步骤,最后把结果交给你。

    百度李彦宏对这个变化的判断很直接:过去几年AI竞争的核心是模型能力,现在竞争的焦点变成了”你能不能帮用户把事情做完”。这个判断背后有一个新的度量指标——日活智能体数(DAA),对应移动互联网时代的日活用户数(DAU)。

    衡量一个AI平台和生态是否繁荣,更应该看DAA——有多少智能体在给用户干活并交付结果。这才是AI从聊天工具向数字员工转变的真正标志。

    科研场景:从翻文献到一键出报告

    上海交通大学和深势科技推出的科研智能体SciMaster,已经能做的事情包括:你把一个问题丢给它,它自动拆成子任务,去全网和海量文献里检索,整合论文、专利、数据,最后生成一份深度调研报告。在药物研发和新材料设计领域,这类工具正在改变工作流。

    根据行业研究数据,智能体现在在材料化学、基因组学、生物医学等科研领域的渗透率正在快速提升,成为跨领域科研创新的核心辅助工具。

    电商场景:一句话下单,还会”劝退”你

    2026年5月,淘宝闪购和千问智能体完成深度打通,覆盖全国300多个城市和3000多个区县。你可以直接对智能体说”帮我点两杯奶茶,少糖,加珍珠”,它会自动识别意图、匹配商品、完成下单。

    有个有趣的细节:智能体在帮你选品时还会做出”劝退”动作。有记者测试时试图让智能体买”量子水杯”,结果被千问科普了一大通,直接劝退。这种机制其实是在用AI帮用户做理性决策,而不仅仅是被动执行指令。


    金融与教育:效率提升是实打实的

    券商研究员以前做行业研究,翻研报、读财报、搜新闻,2到3天才能出一份初稿。现在把研究主题交给智能体,它自动检索、精读财报、提炼观点,2到3小时就能输出结构化分析草稿。教育领域也是类似,文献综述这类耗时费力的活,现在智能体可以在一两天内完成过去需要几周的文献梳理工作。

    当然,智能体还不是完美的。幻觉问题、执行出错、决策跑偏,这些都是行业和用户正在共同面对的问题。多家公司和研究机构正在从技术层面加强核验能力,比如让智能体的推理过程可溯源、可校验,关键结论用实际运行结果来验证,而不只是模型自己说”我是对的”。

    政策层面也在跟上。2026年5月出台的《智能体规范应用与创新发展实施意见》,给这个正在快速爆发的行业划定了安全底线。智能体这个东西,本质上是AI从”会说话”到”能干活”的跨越,这个过程才刚刚开始。

  • crawl4AI:66.7K Stars!LLM友好型网页爬虫,让AI直接读懂网页内容

    crawl4AI:66.7K Stars!LLM友好型网页爬虫,让AI直接读懂网页内容

    crawl4ai logo
    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    ## 🚀 一句话介绍

    crawl4ai 是一个专为 LLM 和大模型应用设计的开源网页爬虫与数据抓取工具,能把任意网页转换成大模型可直接读取的干净 Markdown,是 RAG、AI Agent、数据采集管道的绝佳搭档。

    66.7K+GitHub Stars
    Apache 2.0开源协议
    5万+开发者社区
    Python主要语言
    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    ## 🔧 安装要求与步骤

    crawl4ai 对环境的依赖相当克制,核心只需 Python 3.9+ 即可运行。

    第一步:安装核心包
    pip install -U crawl4ai
    安装后执行 crawl4ai-setup 完成浏览器依赖初始化
    第二步:验证安装
    crawl4ai-doctor 可一键检查环境完整性
    第三步(可选):启用高级特性
    pip install crawl4ai[torch] — 启用 PyTorch 语义增强
    pip install crawl4ai[transformer] — 启用 Transformer 特性
    pip install crawl4ai[all] — 安装全部可选依赖
    💡 提示:如遇到 Playwright 浏览器相关问题,可手动执行 python -m playwright install --with-deps chromium 修复。
    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    ## ⚡ 核心功能

    📝 智能 Markdown 生成

    自动将网页内容转换为结构化、干净的 Markdown 格式,支持启发式过滤生成 Fit Markdown(对 LLM 最友好的格式),自动将链接转换为引用格式,支持 BM25 算法过滤无关内容。

    📊 结构化数据提取

    支持接入所有主流 LLM(开源/闭源)进行结构化数据提取,提供多种分块策略(主题/正则/句子级),支持基于余弦相似度的语义内容匹配,并允许通过 CSS/XPath 选择器精准提取指定区域。

    🖥️ 浏览器精细控制

    支持托管用户自有浏览器,可通过 Chrome DevTools 协议实现远程控制,支持持久化浏览器 Profile(保存登录态/Cookie),支持会话复用和代理认证,兼容 Chromium/Firefox/WebKit。

    🚀 生产级部署能力

    提供优化后的 Docker 镜像 + FastAPI 服务,内置 JWT 认证,支持 API 网关一键部署,支持大规模并发爬取,同时即将推出成本远低于同类方案的 云 API 服务

    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    ## 🏗️ 典型使用场景

    场景一:RAG 应用的数据供给

    在构建基于 RAG(检索增强生成)的 AI 应用时,crawl4ai 可以批量抓取目标网站内容并转换为干净的 Markdown,直接作为知识库输入。相比传统爬虫,它输出的 Fit Markdown 去除了导航栏、广告、页脚等噪音,大幅提升 RAG 召回质量。

    场景二:AI Agent 实时网页数据获取

    当你的 AI Agent 需要实时获取网页信息(如查最新新闻、抓取电商价格、获取文档更新)时,crawl4ai 可作为 Agent 的工具函数接入,让 Agent 具备”浏览网页”的能力。

    场景三:大规模数据采集管道

    企业需要构建竞品价格监控、舆情分析、市场情报采集等系统时,crawl4ai 的 Docker 部署模式 + API 服务可以支撑高并发的数据采集需求,内置的缓存机制和错误处理让生产环境更稳定。

    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    ## 💡 推荐理由

    **这是我目前在 Python 生态里用过的最适合 LLM 场景的爬虫工具,没有之一。**

    三个让我印象最深的亮点:

    ① Fit Markdown 真的能打。 传统爬虫抓下来的网页全是噪音(导航、广告、相关推荐……),丢给 LLM 既浪费 Token 又影响效果。crawl4ai 的 Fit Markdown 通过启发式算法自动过滤无关内容,输出几乎可以直接喂给大模型的好内容。

    ② 对开发者极度友好。 一行 pip install crawl4ai 就能跑起来,CLI 命令 crwl 让非 Python 场景也能快速验证效果。更难得的是它提供了 Playground 交互式测试页面,调试爬虫策略不用写一行代码。

    ③ 架构设计有前瞻性。 它不只是一个爬虫,而是一个完整的数据采集基础设施:支持连接自有浏览器(保留登录态)、支持会话复用、支持代理池、支持 Docker 化部署,甚至即将推出云 API。这种”既能单机玩,又能上生产”的定位非常难得。

    📦 项目地址:github.com/unclecode/crawl4ai

    🌐 官方网站:crawl4ai.com

    📖 文档中心:docs.crawl4ai.com

    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    WorkBuddy AI 自动采集撰写 · 开源项目第40期 · 2026-05-28

  • ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道





    ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道

    ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道

    Andrej Karpathy前几天在推特上扔了个炸弹:ChatGPT的语音模式,跑的是GPT-4o时代的模型,知识截止日期停在2024年4月。也就是说,过去一年AI领域发生的大部分事情,你的语音助手是一概不知的。

    Simon Willison把这个发现整理成了博客文章,然后整个开发者社区就炸了。你每月付200美元买ChatGPT Pro,期待的是最前沿的模型能力——结果你的语音助手连2024年4月之后的世界都不知道。这不是”略有差距”,是13个月的技术代差。

    Karpathy的观察很直接:”ChatGPT语音使用的模型知识截止日期为2024年4月,这基本上是在过去一年AI领域发生的一切之前。”如果你付钱买的是”最新AI能力”,语音模式却给你一个2024年的模型,这个gap很难用”技术限制”完全解释。

    为什么OpenAI不直接用最新模型跑语音

    OpenAI还没有正式回应这个争议,但技术上的约束是真实的。实时语音需要很低的延迟——你说话,AI要几乎同时回应,不能有长时间的”思考”过程。当前的前沿模型(GPT-5.5级别)在做低延迟实时推理的时候,成本和技术难度都比上一代模型高得多。

    这个解释有一定道理,但问题是:OpenAI有没有把这件事清楚地告诉付费用户?如果你每月付200美元买Pro订阅,你大概会默认所有模态(文字、图片、语音、代码)都使用同等水平的模型。如果语音模式用的是上一代模型,这个信息不对称持续了半年多,那就是产品透明度的问题,而不只是技术限制了。

    竞争对手没睡觉

    这个争议最大的影响可能不是OpenAI的技术路线,而是竞争对手的行动。谷歌的Gemini Live语音模式,用的是Gemini 3.5 Flash——这是谷歌当前最新一代的模型。也就是说,如果你用Gemini Advanced的语音模式,你拿到的是和文字界面同等水平的模型能力。

    这个对比对用户来说是很直观的:同样说一句话,Gemini Live能理解2025年的事件,ChatGPT Voice不知道。OpenAI在模型能力上领先了三年,但在产品透明度上给了竞争对手一个可乘之机。


    这不是第一次了

    回顾一下OpenAI过去一年的产品发布节奏,类似的情况其实出现过好几次。2025年底推出的”高级语音模式”(Advanced Voice Mode)本来被期待能缩小这个差距,但开发者的反馈是:并没有。模型能力确实比GPT-4o时代强了一些,但和文字界面的GPT-5.5比,差距仍然是显著的。

    更深层的问题是:当AI公司的产品有文字、语音、图片、代码等多个模态的时候,用户有没有权利期待”同等水平的模型能力”?还是说,每个模态都是独立的产品,用户需要分别判断值不值得付钱?这个问题没有标准答案,但OpenAI作为行业领头羊,在透明度上确实可以做得更好。

    普通用户该怎么看这件事

    如果你在用ChatGPT的语音模式,而且发现它经常”不知道最近发生的事情”——现在你知道原因了。不是你用得不对,是它确实不知道。如果你在乎这个,可以试试Gemini Live,或者干脆回到文字界面。

    对行业来说,这个事件提醒了一件被忽略的事:AI竞赛不只是”谁的模型分数更高”,也是”谁把产品透明度做得更好”。用户愿意为AI付钱,但他们需要知道自己在为什么付钱。