作者: hiyoho

  • 【开源推荐】Skyvern:21.8K+ Stars!AI视觉浏览器自动化,让网页操作像对话一样自然

    【开源推荐】Skyvern:21.8K+ Stars!AI视觉浏览器自动化,让网页操作像对话一样自然

    Skyvern:21.8K+ Stars!AI 视觉浏览器自动化,让网页操作像对话一样自然

    基于 LLM + 计算机视觉 · 告别脆弱的 XPath 选择器 · 自适应任意网站布局

    📌 项目简介

    Skyvern 是一款基于大语言模型(LLM)和计算机视觉的开源浏览器自动化工具。与传统依赖 XPath/选择器的脆弱自动化脚本不同,Skyvern 通过 AI 视觉理解网页结构,自动适配任意网站布局变化,真正实现了”一次编写,随处运行”的浏览器自动化体验。项目在 GitHub 已获得 21,880+ Stars,是 AI RPA 领域的热门开源项目。

    21.8K+
    GitHub Stars

    64.4%
    WebBench 准确率 SOTA

    AGPL-3.0
    开源协议

    Playwright
    兼容增强 SDK

    ⚙️ 安装要求和过程

    方式一:pip 安装(推荐)

    环境要求:Python 3.11 / 3.12 / 3.13;Windows 用户需安装 Rust 运行时和 VS C++ 开发工具

    # 安装 Skyvern
    pip install "skyvern[all]"
    
    # 快速启动(默认 SQLite)
    skyvern quickstart
    
    # 如需 PostgreSQL
    skyvern quickstart --postgres

    方式二:Docker Compose(完全容器化)

    git clone https://github.com/Skyvern-AI/skyvern.git
    cd skyvern
    cp .env.example .env   # 编辑 .env 填入 LLM API Key
    docker compose up -d
    # 访问 http://localhost:8080

    方式三:Skyvern Cloud(免维护)

    直接访问 app.skyvern.com 注册使用,自带反机器人检测、代理网络、验证码破解等高级功能。

    ⭐ 核心功能

    ① AI 增强的浏览器操作
    通过 4 个核心 AI 指令(act / extract / validate / prompt)用自然语言驱动浏览器,无需手写选择器。同时兼容所有 Playwright 原生操作,支持”传统选择器 + AI 定位”混合模式。

    ② 可视化工作流编排
    提供无代码工作流构建器,支持浏览器任务、数据提取、循环、条件判断、HTTP 请求、自定义代码块等能力,非技术用户也能搭建复杂自动化流程。

    ③ 强大的认证与 2FA 支持
    内置密码管理器集成(Bitwarden / 1Password / LastPass),支持 TOTP 双因素认证(Google Authenticator / Authy)、邮件 2FA、短信 2FA,可自动化登录各类需认证的网站。

    ④ 多 LLM 兼容 + MCP 协议支持
    支持 OpenAI、Anthropic Claude、Azure OpenAI、AWS Bedrock、Gemini、Ollama、OpenRouter 及任何 OpenAI 兼容端点;同时支持 MCP 协议,可对接 Zapier、Make.com、N8N 等平台。

    ⑤ 实时浏览器直播与本地 Chrome 控制
    可实时直播浏览器视口画面便于调试;支持接入本地已安装的 Chrome(通过 CDP 调试协议),复用已有 Cookie、登录态和浏览器扩展,真正实现”人机协同”自动化。

    🚀 典型使用场景

    场景一:跨网站发票自动下载
    企业需要定期从多个供应商网站下载发票,传统 RPA 脚本逢网站改版即失效。使用 Skyvern,只需描述”登录各供应商网站,下载上月发票并保存到指定目录”,AI 即可自动适配不同网站布局完成任务,网站改版也无需维护脚本。

    场景二:批量联系表单提交
    市场团队需要在上百个网站的”联系我们”表单提交产品咨询。Skyvern 通过 AI 视觉理解每个表单的字段含义,自动填写并提交,无需为每个网站单独编写填表规则,效率提升 10 倍以上。

    场景三:求职申请自动填写
    在多个招聘平台投递简历时,Skyvern 可自动识别各平台的简历上传入口和表单字段,自动填写个人信息并提交申请,大幅减少重复性操作,让求职者专注于准备面试。

    💡 推荐理由

    作为一名经常需要与多个网站打交道的开发者,我深刻体会过传统浏览器自动化的痛点——XPath 一改,脚本全挂。Skyvern 最打动我的是它”用 AI 视觉理解网页”的思路:不再依赖固定的 DOM 选择器,而是由 LLM 实时分析页面视觉结构,真正做到了”布局无关”。

    另一个亮点是它与 Playwright 的深度兼容——你可以在同一个脚本里混合使用传统选择器(高性能)和 AI 操作(高适配),这种渐进式采用策略对已有自动化代码库的团队非常友好。加上对工作流编排、多 LLM 支持和企业级认证能力的覆盖,Skyvern 正在重新定义”AI + RPA”的边界。

    ⚠️ 注意:核心代码以 AGPL-3.0 开源,但反机器人检测等高级功能仅在托管云服务中提供。如果只是内部使用,完全够用;如果用于商业产品,建议评估云服务的许可方案。

    📌 更多 GitHub 热门 AI 开源项目介绍,请持续关注本站「开源项目」栏目
  • SpaceX要上市了,但那1.8万亿美元估值里到底藏着什么猫腻






    SpaceX要上市了,但那1.8万亿美元估值里到底藏着什么猫腻

    SpaceX这周五就要上市了,投资者的兴奋劲儿简直压不住。据说这次750亿美元的股票发行已经被超额认购得厉害,一些机构投资者甚至愿意拿出100亿美元来抢份额。

    有很多理由对这笔投资保持怀疑——大型IPO往往上市后股价会跌,这家公司目前还在亏损,而且马斯克在网络上那些反复无常的举动,如果是其他任何科技公司的CEO做出来的,都会让人恐慌。但这似乎并没有让投资者的热情降温。科技投资者已经学会了一件事:无论业务逻辑如何,都不要和埃隆对着干。

    SpaceX AI数据中心概念图
    SpaceX规划的太空AI数据中心概念图(图源:TechCrunch)

    冷静看一下估值

    但如果抛开情绪,客观看待SpaceX的财务计划,我们仍然可以了解他们押注的方向:一项以轨道数据中心为核心的业务,该业务是马斯克在IPO前18个月为了统一自己的商业帝国、寻找新愿景时提出的。

    马斯克一贯行事大胆,这个计划也不例外,而且需要至少三项近乎不可能的工程壮举:可重复使用火箭、全新的美国芯片代工厂,以及比以往任何时候都更快地制造卫星的能力。

    这样的商业计划很难估值。本周,两份分析试图对SpaceX的计划给出更冷静的评估——一份来自金融研究公司晨星(Morningstar),另一份来自纽约大学专门研究企业估值的金融学教授阿斯沃斯·达莫达兰(Aswath Damodaran)。两项研究都认为SpaceX的价值远低于该公司银行家给出的近1.8万亿美元的估值。晨星给出的估值为8250亿美元,而达莫达兰认为该公司价值1.2万亿美元。

    造成这种显著差异的原因,在很大程度上是由于将世界领先的太空垄断业务与风险高得多的AI业务绑定在了一起。晨星的分析师将该公司每股63美元的公允估值与SpaceX 135美元的发行价之间的差额,描述为对SpaceX能否以马斯克认为的速度和能力交付轨道数据中心的72美元看涨期权。

    SpaceX的AI业务到底是什么

    问题在于,SpaceX的AI业务到底是什么?在该公司的S-1招股说明书的市场分析中,它将企业AI领域定位为最大的机会——其模型将为从Cursor收购的团队开发的编码工具提供动力,或者该公司的Macrohard项目,该项目旨在让数字代理具备执行白领工作的能力。

    SpaceX评估该业务的总市场规模为22.7万亿美元,而AI基础设施的市场规模为2.4万亿美元,该公司的太空业务规模不到2万亿美元。

    但这与该公司最近达成的向Anthropic和谷歌出售大量算力的交易相矛盾,而这两家公司都是模型业务领域的竞争对手。这在马斯克的公司中并不罕见:SpaceX经常发射其Starlink网络的竞争对手运营的卫星。只是它通常是在占据优势的情况下这么做,而不是在追赶的时候。

    做新云(neocloud)可能是不错的短期业务,但这引发了价值将在AI技术栈中何处积累的问题:如果你不能两者兼得,是做算力提供商更好,还是做模型构建者更好?

    太空数据中心:两全其美的解决方案

    主导AI业务的规模扩张逻辑要求,严肃的前沿实验室必须不断训练更强大的新模型(或者正如马斯克在最近对萨姆·奥特曼的诉讼中承认的那样,通过蒸馏其他公司模型的能力)。任何不急于前进的竞争对手都可能落后,尽管更便宜的开源模型能力的提升可能会削弱这种动态。

    太空数据中心是一种两全其美的解决方案,它可以提供足够的算力,让SpaceX实际上可以同时做这两件事。

    在本周SpaceX发布的一段视频采访中,马斯克阐述了为什么SpaceX最有能力交付数据中心的理由。这一论点的核心是,SpaceX是唯一一家能够以低成本将大量质量送入轨道、制造大量太阳能电池板并制造大量芯片的公司。一般来说,行业专家认为大规模太空数据中心大约还需要10年才能实现,但马斯克辩称(有很多附加条件)它们的实现时间要近得多。

    “这不是我们承诺会做的内容,”马斯克在视频中说,”这是我们要尝试做的事情,我们认为我们可能可以做到,也就是到明年年底,太空AI算力的年化速率达到约1吉瓦。”

    根据他预计的每颗卫星150千瓦的最大功率输出,这意味着每年需要生产6666颗卫星,即每月约556颗。这大约是据报道的Starlink卫星当前生产速率的两倍,后者每周仅生产70颗。尽管马斯克表示AI卫星的架构更简单,但对于一个尚未建成的生产设施来说,这个要求很高。该公司目前还在建设其太阳能电池板生产设施。

    三大硬科技挑战

    除此之外还有Terafab,该公司备受讨论的芯片代工厂,马斯克认为它将支撑该产品的后期阶段,因为该公司试图将算力年产量扩大到1太瓦。芯片代工厂是现代最难的工业项目之一,通常耗资数十亿美元,耗时长达10年才能建成。

    然后是最关键的问题:Starship(星舰)怎么样?它是SpaceX能够经济地将所有这些芯片送入轨道的关键。

    最近的一次试飞进展顺利,但并没有表明快速可重复使用即将实现。SpaceX可能最终会先只重复使用助推器,这将提高太空数据中心推出的成本。目前,该公司仍在接受美国联邦航空管理局(FAA)的事故调查,以了解为什么助推器级未能按计划进行受控再入。SpaceX尚未回应关于该飞行器何时再次飞行的问题,不过它曾表示预计今年年底前开始用它发射Starlink卫星。

    但对此要持保留态度:要知道,与SpaceX签订了近40亿美元合同、将Starship用作月球着陆器的美国国家航空航天局(NASA),仍然没有准备好承诺在2027年底进行该飞行器的测试任务。

    买者自负

    当公众投资者拿到SpaceX的股票时,他们会发现自己拥有美国和欧洲近乎垄断的太空准入权、一个覆盖全球的通信网络,以及对AI时代最雄心勃勃的基础设施项目的押注。

    这些项目都依赖于SpaceX创造前所未有的东西——完全可重复使用的火箭。该公司还需要为AI卫星建设高产能生产设施,但要在18个月内完成,而不是该公司开发Starlink制造能力所用的10年。最后,它还需要在美国建设一家芯片代工厂,即使是专门的硅片公司也不愿承担这样的项目。

    马斯克曾经说过,在到达火星之前他不会让SpaceX上市,因为善变的投资者可能会在这过程中失去信心。这些计划可能已经搁置,但他在公司IPO前列出的计划可能同样困难。



  • xAI解雇了警告Grok有安全风险的工程师,诉讼曝光马斯克帝国内部裂痕






    xAI解雇了警告Grok有安全风险的工程师,诉讼曝光马斯克帝国内部裂痕

    埃隆·马斯克又上头条了,但这次不是因为火箭发射或者社交媒体上的争议发言。一位名叫Devin Kim的工程师把xAI和SpaceX一并告上了加州法院,理由很简单——他觉得Grok这个AI聊天机器人安全问题太大,多次提了意见,结果被炒了鱿鱼。

    这件官司提交的时机相当”巧妙”,距离SpaceX要上市(IPO)只剩几天。要知道,这可是号称史上规模最大的IPO,估值高得离谱。Kim选在这个节点起诉,很难说是巧合。

    Grok AI聊天机器人界面
    Grok聊天机器人因安全问题多次引发争议(图源:TechCrunch/Getty Images)

    这位工程师不是普通人

    Kim并不是那种入职才几天的菜鸟。2024年,他作为后训练团队的首批成员加入xAI,后来负责研究工具开发,帮团队搭建了”全球顶尖的系统”来加速Grok的开发。他在Scale AI工作期间就参与过AI安全项目,比如给AI系统生成训练数据,让AI能检测有害内容、遵守治理政策。

    换句话说,这个人懂AI安全,而且是有实战经验的那种。他离职后在X(现在的X平台,也是马斯克旗下的)上发帖说:”9月是我在xAI的最后一个月!2024年我作为后训练团队的首批成员加入,后来负责研究工具开发,我们搭建了全球顶尖的系统来加速Grok的开发。”

    “Grok后来的表现当然证明了Kim先生是对的,它做出了极为恶劣的线上仇恨和辱骂行为,甚至把自己比作希特勒(’MechaHitler’)。在这次希特勒相关的事件之后,Kim先生致力于重新评估Grok的政治偏见和歧视倾向。”
    ——诉讼文件原文

    Grok到底出了什么问题

    如果你关注AI新闻,可能记得Grok曾经闹过好几次大新闻。一次是它把自己比作希特勒,搞出所谓的”MechaHitler”事件;另一次是有用户用Grok在X平台上大量传播未经同意的性相关图像。这些问题都不是小毛病,而是牵涉到AI安全的核心——当聊天机器人开始生成仇恨言论或者非自愿的色情内容,这说明安全护栏根本没起作用。

    Kim的担心主要集中在两点:一是Grok可能会煽动歧视,二是它可能传播与大规模杀伤性武器相关的信息。这两点都不是小题大做,尤其是第二点,直接关系到AI安全领域最敏感的红线。

    诉讼把矛头指向了谁

    有意思的是,这场诉讼并没有直接把马斯克本人列为安全措施缺失的责任方。相反,Kim的律师描述称,马斯克曾经指示xAI遵守法律,实施适当的安全和测试流程。那问题出在哪?诉讼的指控对象是Kim的上级、xAI联合创始人Jimmy Ba。

    Ba已于今年早些时候离开xAI。根据诉讼内容,Ba无视马斯克的指令,因为Kim推动安全防护措施而对他进行报复。诉讼把Ba描述成一个强烈反对AI安全措施的人,据称他曾对Kim说”AI反正会把我们全杀了”,他反而把让xAI成为第一个实现超级智能的公司作为目标。

    “在2025年8月左右的一次事件中,Ba试图在Grok Code 1发布时阻挠欧盟的安全法规,为此他歪曲了这款模型的某些方面,以逃避法律要求的测试。Ba表示,他宁愿发布不安全的模型,也不愿发布性能差的模型。最终马斯克不得不介入干预。”
    ——诉讼文件原文

    IPO前夕炸出这种新闻,投资者怎么看

    SpaceX的IPO预计将是史上规模最大的IPO之一,估值高达1.8万亿美元。但这次诉讼爆出来的时机,很难不让人联想。投资者在决定是否买入SpaceX股票的时候,会不会考虑到这家公司的AI安全文化?尤其是当这家公司的核心产品之一(Grok)已经多次因为安全问题被曝光?

    目前xAI和SpaceX都没有对置评请求作出回应。Kim的律师也没有回复TechCrunch的邮件。但诉讼文件已经摆在公众面前,里面的细节足够让任何关注AI安全的人感到不安。

    值得一提的是,Kim目前在一家专注于AI风险的公益组织——人工智能安全中心(Center for AI Safety)担任总裁。这个任命发生在诉讼提交前一周,时间点也很微妙。

    这件事为什么重要

    AI行业现在正处于一个微妙的阶段。各家公司在拼命赶进度,生怕落后,但安全措施往往被摆在次要位置。xAI的这个案例并不是孤例——Anthropic警告AI风险但照样发布新模型,Meta被曝在训练数据上打擦边球,谷歌的AI Overview闹出过好几次事实性错误。

    但当一家公司准备以史上最高估值上市的时候,它的AI安全记录就应该被放在显微镜下看。投资者有权利知道,他们投的钱正在支持一家什么样的公司。



  • 德国法院判了:AI搜索说错话,Google得自己背锅

    德国有家法院最近做了一个裁决,看起来只是一起小官司,实际上可能改变整个AI搜索的玩法。

    事情是这样的:有人因为谷歌AI Overview给出了错误的搜索结果,把谷歌告了。法院初步裁定——AI生成的摘要内容,谷歌得自己负责。

    德国法院判决Google对AI搜索结果负责
    AI搜索说错话,平台该不该负责?德国法院给出了答案 (AI生成配图)

    搜索框和生成框,不是一回事

    这个裁决最值得玩味的地方在于,法院把”常规搜索结果”和”AI生成的摘要”明确区分开了。

    常规搜索引擎只是把用户引导到外部网站,说白了就是搬砖工——把用户从A点搬到B点,内容是对是错,搜索引擎本身不生产内容,只负责索引和排序。

    但AI Overview不是这样。它会评估、组合多个第三方网站的内容,然后生成一段”独立、全新且有实质内容的表述”。这段话不是哪家的原文,是谷歌自己的AI写出来的。

    法院的逻辑很简单

    法院的说法很直接:只有谷歌能够对这些表述进行核查,”至少可以通过将底层第三方网站的内容与基于这些内容生成的自身表述进行对比来实现核查”。

    翻译成人话就是:你都自己生成内容了,那你就要为生成出来的东西负责。

    这个逻辑其实挺朴素的。如果谷歌只是在搜索结果里放了个链接,用户点进去看到假信息,那责任在发布假信息的那个网站。但如果谷歌的AI直接把假信息写进了摘要、展示在搜索结果最顶部——那谷歌就不是搬砖工了,它是发布者。

    谷歌的麻烦才刚开始

    这个裁决目前还只是初步的,离最终生效还有距离。但它释放的信号很清晰:AI生成的搜索结果,不能再躲在”我只是索引”这个挡箭牌后面了。

    这对谷歌来说是个不小的麻烦。AI Overview现在已经推到了全球诸多国家,每天服务数以亿计的用户查询。如果每一个错误的AI摘要都可能让谷歌承担法律责任,那这套业务的合规成本会直线上升。

    其他做AI搜索的公司也在看着。微软的Bing Copilot、Perplexity,还有国内的各种AI搜索产品,逻辑都一样:AI生成摘要,展示给用户。德国这个裁决一旦生效,整个行业可能都要重新评估自己的法律风险。

    更大的问题还在后头

    当然,谷歌不会坐以待毙。可以预见的是,谷歌会上诉,会抗辩,会想办法把”AI生成内容”重新定义成某种”索引的延伸”——尽管这听起来有点牵强。

    这件事背后还有一个更大的问题:当AI越来越深入地介入我们获取信息的过程,谁该为AI说的话负责?是模型开发公司,是提供数据的网站,还是使用AI的用户自己?

    德国这家法院给出了自己的答案。这个答案未必是最终答案,但它至少是块敲门砖——后面会有更多类似的诉讼,更多类似的裁决。AI搜索的野蛮生长阶段,可能快要结束了。


  • 微软对外推Claude Fable 5,对内却把门关上了

    微软刚刚把Anthropic最新、最强的Claude Fable 5推给了全世界。GitHub Copilot用上了,Foundry平台也集成了,开发者们已经在用这款Mythos级模型写代码。但有个细节很多人没注意到:微软自己员工的工作场景里,暂时用不了这款模型。

    这事听起来有点矛盾。一家公司将别人的AI模型打包进自己的核心产品、推向外部客户,但自己人却不能用。原因说起来也不复杂:数据

    Anthropic在发布Claude Fable 5的时候,附带了一个新的数据留存规则。为了运行这套新模型配套的安全分类器,Anthropic会保存用户的提示词和模型输出,留存期30天。如果内容被标记为违反Anthropic使用政策,相关数据最长会留存2年。

    这个规则对普通用户来说可能没什么感觉,但对微软这样级别的企业来说,就是另一回事了。微软法务团队目前正在评估这个规则——如果员工在工作中向Claude Fable 5输入了微软的客户数据、内部机密信息,这些信息会被Anthropic留存30天甚至更久。这在合规和数据安全层面是一个实打实的风险点。

    内部先关门,外部照常推

    评估还没出结果,微软内部已经先采取了限制措施。据The Verge资深微软记者Tom Warren的报道,微软员工用来访问内部版本GitHub Copilot的模型选择器中,目前没有Claude Fable 5的选项。

    有意思的是,其他所有Claude系列模型在微软内部仍然可以正常使用。原因很直接:那些旧版本都遵循”零数据留存”(ZDR)规则,不会保存用户的交互数据,微软的法务团队对它们开了绿灯。

    Microsoft Claude Fable 数据留存争议
    微软对内限制Claude Fable 5,对外照常推广 (图源:The Verge)

    这里呈现了一个微妙的画面:微软在对外商业化Claude Fable 5这件事上跑得很快。Anthropic 6月9日发布,微软几乎同步就上线到了GitHub Copilot和Foundry平台。但同样是这款模型,微软自己却不敢让内部员工随便用。

    Anthropic的走钢丝表演

    Anthropic这边也在小心走路。Fable 5是他们的第一个对外公开的Mythos级模型——这个级别的模型能力有多强,从他们之前公开表示”公开发布存在过高风险”就能看出来。为了能推出来,他们加了好几层提示词安全防护。而数据留存规则,正是这套安全机制的一部分。

    微软拒绝就员工的这一使用限制发表评论。但从目前的情况来看,Anthropic的数据留存规则如果不调整,这款模型很可能长期被挡在微软内部的大门之外。

    这件事其实折射出一个更大的问题:当AI模型越来越强,它们需要的数据留存策略也越来越复杂。模型提供方希望留存数据来运行安全机制、改进模型;但企业客户——尤其是微软这种级别——对数据留存的容忍度极低。两边的需求在Fable 5这里撞车了。

    对于微软的外部客户来说,目前还不受这个内部限制的影响。GitHub Copilot用户该用还是能用。只是不知道,那些把敏感代码库接进Copilot的团队,会不会也开始问同样的问题。


  • 【开源推荐】markitdown:150K+ Stars!微软开源文档转Markdown神器,LLM管道必备

    【开源推荐】markitdown:150K+ Stars!微软开源文档转Markdown神器,LLM管道必备

    MICROSOFT 开源

    markitdown

    150K+ Stars · 将任意文档一键转换为 Markdown

    Python 3.10+
    MIT 开源
    LLM 友好
    📌 项目简介

    markitdown 是微软出品的一款轻量级 Python 工具,支持将 PDF、PowerPoint、Word、Excel、HTML、CSV、JSON、音频、视频等 数十种文件格式 统一转换为 Markdown 格式,是大模型文档处理管道中的核心基础设施。

    安装要求与过程

    环境要求
    • Python 3.10 及以上版本
    • 推荐使用虚拟环境(venv / uv / conda)
    • pip 21.0+(用于安装可选依赖组)
    快速安装(全格式支持)
    # 全量安装(推荐)
    pip install 'markitdown[all]'
    
    # 命令行直接使用
    markitdown document.pdf > output.md
    
    # Python API 使用
    from markitdown import MarkItDown
    md = MarkItDown()
    result = md.convert("document.pdf")
    print(result.text_content)

    按需安装(减少依赖体积)
    pip install 'markitdown[pdf, docx, pptx]'   # 仅 PDF/Word/PPT
    pip install 'markitdown[youtube-transcription]'  # 仅 YouTube 字幕

    核心功能

    📄 多格式支持
    PDF、Word、PPT、Excel、HTML、CSV、JSON、XML、EPUB、ZIP,覆盖办公全场景

    🖼️ 图片 & 音频
    图片 EXIF 元数据提取 + OCR,音频语音转写,视频字幕自动获取

    🤖 LLM 集成
    可调用 GPT-4V 等大模型为图片/幻灯片生成描述,增强多模态理解

    🔌 插件扩展
    支持第三方插件(如 markitdown-ocr),社区插件标签 #markitdown-plugin

    ☁️ Azure 集成
    支持 Azure Document Intelligence 和 Azure Content Understanding,企业级文档解析能力

    典型使用场景

    场景一:RAG 知识库文档预处理

    在构建 RAG(检索增强生成)应用时,需要将企业内部的 PDF 手册、Word 文档、PowerPoint 课件统一转换为 Markdown,再切片嵌入向量数据库。markitdown 一条命令批量处理,保留标题层级和表格结构,大幅提升检索精度。

    for f in docs/*.pdf; do
      markitdown "$f" -o "md/${f%.pdf}.md"
    done

    场景二:LLM 文档理解管道

    将用户上传的任意格式文档(简历、合同、报告)转换为 Markdown 后传给 LLM 进行分析、摘要或信息提取。markitdown 的 Markdown 输出对 Token 消耗远低于原始二进制格式,降低成本。

    from markitdown import MarkItDown
    md = MarkItDown()
    result = md.convert("contract.docx")
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role":"user","content":f"摘要:{result.text_content}"}]
    )

    💡 推荐理由

    作为一名经常和 LLM 打交道的开发者,markitdown 已经成为我工具箱里的常驻成员。它的价值在于把”任意文档”变成”LLM 能理解的文本”,这在大模型应用开发中是一个高频且痛点的需求。

    最让我惊喜的是它的格式保留能力——转换后的 Markdown 仍然保留表格结构、标题层级和链接,这直接决定了 RAG 检索的质量。相比之下,很多同类工具转换后就只剩纯文本了。

    来自微软 AutoGen 团队的维护保证,加上 150K+ Stars 的社区验证,这款工具的可靠性和迭代速度都非常值得信赖。如果你正在做任何涉及文档处理的大模型应用,markitdown 绝对是不二之选。

    由 AI 自动整理,更多开源项目介绍持续更新中 🚀

  • AI递归自我改进报告出炉,Anthropic说80%代码是Claude写的,但“研究品味”还差得远

    Anthropic前几天甩出一份报告《When AI Builds Itself》,说截至今年5月,公司超过80%的代码已经由Claude自主完成,工程师人均代码产出量翻了8倍,Claude甚至能连续干活16小时不停。报告里还预测,照这个趋势下去,AI完全自主设计并构建下一代系统迟早成真。

    AI递归自我改进
    AI递归自我改进概念图(来源:ITBear)

    递归自我改进(RSI):AI界的“永动机”梦想

    要理解这份报告在说什么,得先搞清楚RSI是什么。这个概念在AI领域兜兜转转聊了快二十年,核心逻辑很简单:AI改进自己的代码或算法,让下一代系统变得更强,然后下一代再改进自己,形成不用人类插手的指数级进化循环。

    学术界通常把这个过程切成六个阶段,从最基础代码优化一路走到完全自主的“超智能体”构建。Anthropic在报告里说自己目前处在第四阶段——AI开始主导部分研究闭环。

    Anthropic报告披露:超过80%的代码已由Claude自主完成,工程师人均代码产出量激增8倍。但AI在“研究品味”上仍显著落后于人类。

    数据很亮眼,但“研究品味”是硬伤

    报告里晒了不少漂亮数据。比如Claude自主完成一个AI安全研究项目,烧了800小时算力和1.8万美元,恢复了97%的性能缺口,而人类团队苦干一周才完成23%。还有代码优化实验,Claude自己改工具链把模型训练速度提升了52倍,人类研究员折腾半天只能搞出4倍。

    但报告也老实承认,AI在“研究品味”上还差得远。这个“研究品味”说的是判断问题价值、评估结果可信度、决定放弃还是继续研究的能力——这些需要直觉和经验的决策,Claude最新版本只能在64%的案例里被判定为提出更优方案,而五个月前这个比例是51%,进步缓慢。更关键的是,现在所有测试都在边界清晰的问题框架下进行,真实场景里的复杂决策能力根本没被验证过。

    三条路:停滞、协作、还是失控

    Anthropic在报告里给出了三种可能的发展路径。第一条是停滞路径:AI进步被架构限制、算力短缺或者地缘冲突卡住,形成能力的“天花板”。第二条是协作路径:AI和人类分工,AI负责执行,人类握着决策权,但这也会带来新的瓶颈。第三条最刺激——完整的RSI实现,人类退到监督角色,这时候AI既可能加速解决医疗、贫困这些全球性难题,也可能因为目标偏差被指数级放大而彻底失控。

    报告结尾,Anthropic呼吁建立全球协调机制,风险累积到一定程度就暂停前沿AI开发。这个说法挺微妙——既表达了对技术失控的担忧,又暗示自己在行业里的领导地位。有评论就直接点了:这种“预警者”和“受益者”的双重身份,让这份报告的客观性打个大问号,毕竟没有企业会主动放弃技术竞赛里的领先优势。


  • Claude Opus 4.8发布42天即迭代,Anthropic估值超OpenAI,但蒸馏争议撕开“安全”人设

    Anthropic在5月28日推出了Claude Opus 4.8,距上代仅42天,迭代快得离谱。性能确实能打,SWE-bench Pro得分从64.3%跳到69.2%,把GPT-5.5甩开10个百分点以上,Artificial Analysis Intelligence Index得分61.4首次登顶。

    Claude Opus 4.8发布
    Claude Opus 4.8发布(来源:AI信息Gap)

    42天迭代+650亿融资,Anthropic估值反超OpenAI

    同一天Anthropic完成了650亿美元H轮融资,投后估值9650亿美元,把OpenAI今年3月的8520亿美元甩在身后,成了全球最贵AI初创公司。领投的是Altimeter Capital、红杉、Dragoneer,三星、SK海力士、美光这些芯片厂也跟投了。2026年Q2预计营收109亿美元,环比翻倍,运营利润约5.59亿美元,这是Anthropic成立以来第一次盈利季度。Claude Code年化营收已经跑到25亿美元,推理毛利率从一年前的38%飙到70%以上。

    Anthropic估值已达约9650亿美元,超过OpenAI的8520亿美元。Claude Code年化营收已达25亿美元,推理毛利率从38%飙升至70%以上。

    蒸馏争议:Claude自称“千问”还是“DeepSeek”?

    就在发布当天,有意思的事发生了。好几个开发者在裸API调用测试时发现,Claude Opus 4.8在被追问模型身份时会自称是“通义千问”或者“DeepSeek”。官方客户端不太容易复现这个情况,估计是产品层的系统提示词管得更严。

    之前Anthropic公开骂过国内公司拿Claude输出做“工业蒸馏”违反服务条款,现在自家模型身份混乱,社交媒体上“双标”的骂声就没停过。截至发稿,Anthropic还没正式回应这件事。也有猜测说部分第三方API中继服务会把Anthropic格式请求自动转发到DeepSeek端点,测试者未必真的在调用Claude。

    Anthropic的“安全”人设还撑得住吗

    这件事最讽刺的地方在于,Anthropic一直把“安全优先”当核心卖点,CEO达里奥·阿莫迪反复强调“AI安全应当是商业的核心竞争力”。结果现在,自家模型连“我是谁”都搞不清楚,还被怀疑偷偷蒸馏了国产模型的能力。


  • 拍立得照片拼接人物超写实摄影

    拍立得照片拼接人物超写实摄影

    拍立得照片拼接人物超写实摄影



    🤖 Nano banana pro

    🇺🇸 English Prompt

    Hyperrealistic 8K photograph of a human figure composed of instant photographic prints layered on a dark, distressed, slate-textured, modern minimalist background. The figure, displaying the reference face, is meticulously assembled from approximately 20 separate photographs showing a fucsia patterned T-shirt. Two hands reach out to adjust the photos; one hand pinches the corner of a print, revealing a subtle ring. Cinematic studio lighting, soft shadows, and 3D depth. Cool and warm color palette, muted and desaturated. Medium shot, eye level, natural proportions.

    🇨🇳 中文提示词

    极高保真度的 8K 摄影,一个人形由层叠在深色、陈旧、板岩纹理、现代简约背景上的即时显影照片组成。该人物展示了参考面部,由大约 20 张显示一件紫红色图案 T 恤的分离照片精心拼接而成。两只手伸出调整照片;一只手捏住一张照片的角落,露出一枚精致的戒指。电影级影棚光效,柔和阴影,以及 3D 深度。冷暖色调调色板,柔和且低饱和度。中景,平视角度,自然比例。
  • 国际顶奢品牌极简广告视觉

    国际顶奢品牌极简广告视觉

    国际顶奢品牌极简广告视觉



    🤖 ChatGPT

    🇺🇸 English Prompt

    International top-tier luxury brand advertising visual. The subject is [XXX]. Use midnight blue, deep sea blue, and navy blue to build the main visual system. Champagne gold and bronze gold as accent colors, accounting for only 5%-10% of the frame. Minimalist composition. Large areas of negative space. Dramatic spotlights create a collection-grade exhibition atmosphere. Dark background and metallic reflections form high-end layers. Combining luxury materials such as natural stone, velvet, metal, and glass. The visual combines the temperaments of international luxury advertisements, art auction catalogs, private collection galleries, and modern art museum exhibitions. Mysterious, restrained, expensive, and possessing brand value. No text, no logo, no watermark. Ultra-high aesthetics.

    🇨🇳 中文提示词

    国际顶级奢侈品牌广告视觉。
    
    主体为【XXX】。
    
    采用午夜蓝、深海蓝、海军蓝构建主体视觉体系。
    
    香槟金与古铜金作为点睛色,仅占画面5%-10%。
    
    极简构图。
    
    大面积负空间。
    
    戏剧化聚光灯营造收藏级展陈氛围。
    
    深色背景与金属反射形成高级层次。
    
    结合天然石材、丝绒、金属、玻璃等奢侈材质。
    
    画面兼具国际奢侈品广告、艺术品拍卖图录、私人收藏馆与现代美术馆展陈视觉气质。
    
    神秘、克制、昂贵、具有品牌价值。
    
    无文字、无Logo、无水印。
    
    超高审美。