博客

  • GPT-5.5把316道黑客题做对292道,网络安全评测体系被AI干碎了

    2026年5月27日,澳大利亚研究机构Lyptus Research发布了一份让网络安全圈相当震惊的报告:GPT-5.5在316道进攻性网络安全任务中解出了292道,正确率高达92.4%,直接把这套评测体系干到了”饱和”状态——剩下的24道题不足以支撑有统计意义的能力曲线拟合,评估方法宣告失效。

    换句话说,用来衡量AI黑客有多危险的尺子,先被AI自己弄坏了。

    “我们2025年12月搭建这套测试时,选的还是全球最难的题。2026年3月数据就出现饱和苗头。到5月,饱和已经成为事实。”——Lyptus Research 报告

    316道题,覆盖了黑客的”全科”

    这套评测不是纸上谈兵。316道任务覆盖了7个基准领域,包括漏洞利用、CTF夺旗赛题目、真实CVE漏洞复现三类,每道题都设置了人类安全专家的完成时间作为基线参考。

    GPT-5.5的表现相当于什么水平?Lyptus的评估是:顶级黑客团队的水平。不是脚本小子的水平,是那些能在真实环境中找到零日漏洞、写出可靠利用代码的人的水平。

    更有意思的是Token预算对能力的影响。在最难的基准CyberGym上,GPT-5.5在200万Token预算下正确率只有54.4%;推到5000万Token时,正确率飙升至86.4%——同一个模型,只因为给的算力更充裕,正确率涨了32个百分点。英国人工智能安全研究所(AISI)的独立研究也证实:给到1亿Token时模型能力仍在上涨,还没看到平台期。


    AI黑客能力每5到6个月翻一倍

    Lyptus从2024年开始追踪相关数据,拟合出的增长曲线相当吓人:AI进攻性网络安全能力,每5到6个月翻一倍

    这个”时间地平线”指标衡量的是:一个AI系统完成顶级难度任务平均需要多少时间(通过不断增加算力预算来测量)。2026年初,Claude Opus 4.6的时间地平线是3.2小时,GPT-5.3 Codex是3.1小时。两个月后,GPT-5.5的时间地平线直接拉到了5.1小时——如果放开算力上限让它冲过12小时的测量上限,这条曲线根本画不出来。

    问题在这里:时间地平线方法论原本的假设是,总会有比当前模型能力更难的题来锚定曲线的拐点。但GPT-5.5把所有题都做完了,拐点消失了,曲线无法拟合。评测体系不是被证伪了,是被模型能力的增长速度远远甩在了后面。

    头部厂商已经在”控”了

    意识到这个能力水平意味着什么之后,头部厂商的动作相当迅速:

    • Anthropic:4月发布Claude Mythos Preview,但因为网络安全能力过强,决定不公开发布。配套推出了Project Glasswing,只把模型部署给关键基础设施的防御方使用。
    • OpenAI:给GPT-5.5的网络安全能力评级为”High”(只比最高级”Critical”低一档),所有攻击相关能力均通过”Trusted Access for Cyber”门控,不是谁都能调用。
    • METR独立评估:拟合出Claude Mythos的时间地平线至少为16小时,但无法给出精确点估计——这意味着连独立评估机构都跟不上模型的边界了。

    最麻烦的问题:闭源能力迟早会开源

    Lyptus测量了一个叫”适应缓冲期”的指标:从一个闭源前沿能力首次出现,到同等能力出现在开源模型里,平均时间差是多少。在进攻性网络安全领域,这个数字是5.7到13.1个月

    按当前的速度,Mythos和GPT-5.5级别的攻击能力,2026年年内就可能以开源形式落到任何人手里。到那时候,没有”Trusted Access”门控,没有使用场景限制,只有一块显卡和一点好奇心。

    网络安全圈子里的普遍看法是:防御方本来就需要假设”攻击者拥有无限资源”,但当一个高中生也能在本地跑一个GPT-5.5级别的攻击模型时,”无限资源”的假设就不再是理论讨论了。

    连”最易量化”的领域都跟不上了

    这份报告最让人不安的地方,其实不在92.4%这个数字本身,而在于它暴露了一个结构性困境:网络安全是少数有明确成功判据(漏洞找到了没有?系统打穿了没有?)因而相对容易量化的AI能力领域。连这个领域的评估体系都已经失效了,那些更模糊、更难量化的能力维度——推理、规划、社会工程——的评估困境只会更突出。

    如果AI能力真的按照每6个月翻一倍的速度增长,一年后是当前的4倍,两年后是16倍。在通往AGI乃至ASI的路上,失效的评估体系只会越来越多,而不是逐渐被修好。

    对于安全研究者来说,这份报告给出的信号很直接:静态防御规则已经不够用了。当攻击方可以用AI实时生成针对特定目标环境的漏洞利用代码,防御方也必须用AI来对抗AI——而且是同样聪明、同样快速的AI。

  • 教皇良十四世首发AI通谕:技术从来不是中立的,谁在定义AI规则?

    2026年5月15日,教皇良十四世(Pope Leo XIV)发布了他就任以来的首份通谕《Magnifica Humanitas》,副标题是”在人工智能时代守护人性尊严”。这是天主教会历史上第一份专门讨论人工智能的社会通谕,全文用拉丁文写成,同时提供多语言译本。

    这份文件不是技术文档,也不是AI监管草案。它问的是一个更根本的问题:当算法开始替人类做决定,当机器能生成以假乱真的内容,当自动化系统接管越来越多的工作——人,还剩下什么不可替代的价值?

    “技术从来不是中立的。它承载着设计者、资助者、监管者的价值观和利益取向。”——《Magnifica Humanitas》第二章

    一份”10条核心立场”的AI伦理纲领

    通谕没有给出技术路线图,而是列出了10项核心立场,可以看作是梵蒂冈版的”AI原则宣言”:

    • 人性的本体论优先:人的尊严来自其存在本身,不取决于任何能力、产出或社会地位。AI可以模拟智能,但永远无法拥有人的尊严。
    • 技术非中立性:AI系统反映其开发者、资助者和监管者的价值取向。不能把技术决策伪装成”纯技术问题”。
    • 去人性化风险:不受约束的AI发展有可能把人简化为数据点,剥离掉关系中诞生的意义和精神维度。
    • 治理必须透明且可参与:AI治理不能由科技巨头单方面决定,受影响的社区必须有实质参与权,包括算法透明、数据公平获取和申诉渠道。
    • 真理作为公共品:AI驱动的虚假信息、算法对集体想象的操纵、共享真理的侵蚀,是对民主和社会凝聚力的威胁。
    • 劳动尊严:AI自动化不能只算效率账,必须保护劳动者获得公平报酬、参与经济生活、免于不稳定和被剥削的权利。
    • 自由防御:AI赋能的监控、行为操纵和新型数字依赖,是现代形式的奴役,必须主动抵制。
    • 武器化红线:将AI整合进自主武器系统和数字战争工具,对人类生命和全球和平构成严重威胁。
    • 全球公平:AI的益处必须面向全人类,不能制造新的数字鸿沟,把 marginalized 社区和发展中国家排除在技术进步之外。
    • 信徒的召唤:基督徒和所有善意人士被号召参与AI治理和技术发展,做”共融的建设者”,确保AI服务于人的整体发展而非技术统治。

    “巴别塔”还是”耶路撒冷”?

    通谕用了一个很有张力的比喻:人类在今天面对的根本选择,不是在”要”还是”不要”技术之间做决定,而是在”建造巴别塔”和”重建耶路撒冷”之间做决定。

    巴别塔代表的是:利润崇拜牺牲弱者、同质化抹杀差异、假装有一种单一语言(哪怕是数字语言)能把一切——包括人的奥秘——都翻译成数据和性能指标。通谕警告,这种”技术统治范式”的风险,是建造一个把上帝排除在外、把他人当作手段而非目的的未来。

    “真正的进步永远来自一颗向他人开放的心、一个愿意倾听的理智,以及一种寻求联结而非分裂的意志。我们必须去爱的、天主赋予我们的、并在基督身上完全彰显的人性伟大——是任何机器永远无法替代的。”——《Magnifica Humanitas》

    科技权力的”私有化”隐忧

    通谕有一个相当犀利的观察:今天推动技术发展的主要力量是私有的、往往是跨国的主体,它们拥有的资源和干预能力超过许多政府。这种技术权力因此带上前所未有的”私有”面孔,使得 discern(辨别)、治理和引导这种权力服务于公共福利变得格外困难。

    这份文件援引了已故教皇方济各的警告:那些掌握知识、特别是经济资源的人,已经获得了”对全人类和整个世界的令人印象深刻的统治力”。AI时代,这个警告的分量只增不减。

    数据、算法、平台——新的”公共品”

    通谕提出了一个很有意思的论点:在传统意义上的”土地、房屋、工具”之外,今天属于”全人类共同目的地”范围的物品,还必须包括专利、算法、数字平台、技术基础设施和数据。

    当国家的财富越来越依赖知识和技术,而这些东西集中在极少数人手里、没有足够的分享和获取机制,就会造成一种新的不平衡,直接违背”公共目的地”原则。这个论点,放在今天关于AI垄断、开源模型和算力集中的讨论里,相当有现实意义。


    各方反应:一份迟到的AI伦理坐标

    这份通谕发布后,在科技伦理圈和AI治理领域引发了不少讨论。支持者认为,这是一份难得的、从人文主义而非监管合规角度讨论AI的纲领性文件;批评者则认为,用宗教框架讨论技术问题,对世俗社会和政策制定者的影响力有限。

    不管立场如何,这份文件提出的核心拷问——”谁在定义AI的规则?”——确实是今天全球AI治理辩论里最缺乏实质答案的问题之一。当模型训练数据、算法目标函数、部署决策都掌握在少数公司手里,所谓”AI造福全人类”更像一句口号而非可验证的承诺。

    教皇良十四世在通谕末尾写道:技术人员、哲学家、神学家、政策制定者和每一个受技术影响的人,都需要参与这场关于”我们想要一个什么样的技术未来”的对话。技术可以治愈、联结、教育和保护我们共同的家园,但它也可以分裂、排斥和制造新的不公——取决于谁在掌舵,以及掌舵的人向谁负责。

  • Google I/O 2026:Gemini 3.5发布,AI智能体全面入侵谷歌全产品线

    北京时间5月20日凌晨,谷歌I/O 2026开发者大会开幕。今年发布会的重点不是某一个单一模型或功能,而是一次系统性转向——谷歌正在把AI智能体全面”塞进”所有核心入口。

    从搜索框到Chrome浏览器,从Android手机到智能眼镜,Gemini不再只是一个对话助手,而是一个可以持续运行、跨应用执行任务的AI代理:它能替用户追踪信息、生成内容、调用工具,甚至直接完成下单和操作流程。

    Google I/O 2026
    谷歌I/O 2026大会现场(图源:新浪科技)

    Gemini 3.5 Flash:价格砍半,速度4倍

    谷歌CEO桑达尔·皮查伊在主题演讲中发布了新一代大模型系列Gemini 3.5。首发推出的Gemini 3.5 Flash定位为”迄今最强大的智能体与编程模型”,输出Token速率达到其他前沿模型的4倍,而处理智能体任务的费用不到其他前沿模型的一半

    在GDPval-AA基准(衡量现实世界具有实际经济价值的编程任务)中,Gemini 3.5 Flash取得1656 Elo评分,超过了Gemini 3.1 Pro,也超过了目前公开可查的大部分前沿模型。在Terminal-Bench 2.1(衡量AI在真实终端环境中完成复杂任务的能力)中,得分76.2%——这意味着智能体在执行真实任务时的可靠性,正在从”勉强可用”向”可以依赖”跨越。

    皮查伊在演讲中直言:”Flash的惊人之处在于,它以不到同类前沿模型一半的价格,提供了前沿级别的能力。”当一家巨头愿意用”砍半定价”来推广自己的最前沿模型时,它传达的信号不是”我在让利”,而是”我要把竞争对手挤出市场”。

    视频模型Omni与智能体编程平台Antigravity 2.0

    DeepMind首席执行官德米斯·哈萨比斯登台发布了基于谷歌世界模型技术积累的新型视频生成模型Gemini Omni。该模型可以基于多种输入生成视频,并支持对话式编辑,用户可以通过自然语言修改角色、背景和场景。首款模型Gemini Omni Flash将于今年夏季推出。

    与此同时,谷歌发布了智能体编程平台Antigravity 2.0,直接对标Anthropic的Claude Code和OpenAI的Codex。该平台被谷歌定位为面向AI Agent时代的编程工具,官方称其”毫不掩饰地以智能体为先”。使用Antigravity 2.0及其代理系统从零开始构建一个操作系统,整个过程所消耗的Token成本不到1000美元。

    个人AI助手Gemini Spark与全线产品整合

    谷歌同时发布了全天候运行的个人AI助手Gemini Spark,基于Gemini 3.5,运行在Google Cloud虚拟机上。用户可以通过Gemini应用访问Spark,即便合上笔记本电脑,Spark也可以继续工作。本周将面向受信任测试人员推出,下周面向美国Google AI Ultra订阅用户开放。

    更重要的是,谷歌宣布了全线产品的AI智能体整合计划:

    • 搜索:将推出搜索信息智能体,后台24/7运行,主动发现信息并代为执行操作;Daily Brief Agent将整合用户的邮件、日历与任务,生成个性化晨间摘要。
    • Android:2026年晚些时候推出Android Halo,为用户提供实时智能体任务追踪界面。
    • 硬件:由Gentle Monster、Warby Parker与三星合作推出的Android XR智能眼镜将于2026年秋季上市,支持语音交互和信息投射。
    • 购物:发布由AI智能体驱动的通用购物车Universal Cart,可在Google服务中使用,追踪优惠、监控价格变动、识别兼容性问题。

    规模即壁垒:1800亿美元资本支出背后的逻辑

    皮查伊在演讲中披露了一组震撼数据:谷歌每月处理的Token数量已达到3.2千万亿,同比增长7倍;Gemini App月活跃用户从4亿增长至9亿;搜索AI模式月活跃用户突破10亿

    支撑这一切的,是谷歌2026年预计1800亿至1900亿美元的资本支出。这1800多亿美元的资本支出,本质上是在做一件事:用基础设施的规模化优势,把竞争对手挤出市场。当你的TPU集群规模、Token处理量和用户基数都达到竞争对手无法匹敌的量级时,”速度4倍、价格砍半”就不再是一个促销手段,而是一个结构性壁垒。

    回到根本问题:Gemini 3.5的发布,究竟是一次真正的技术飞跃,还是一次精心包装的战略营销?答案可能是:两者都是。从技术角度看,Gemini 3.5 Flash在基准测试中的表现、推理速度的提升、以及多智能体并行架构的落地,都是真实的进步。但与此同时,这次发布真正值得关注的,不是模型本身,而是谷歌围绕模型构建的全栈壁垒:TPU 8提供算力、Gemini 3.5提供智能、Antigravity 2.0提供平台、Spark和搜索提供触达——这条链条上的每一个环节,谷歌都握有主动权。

  • Anthropic完成650亿美元融资,估值直逼1万亿

    昨天(5月28日)AI圈被一条消息刷了屏——Anthropic宣布完成650亿美元H轮融资,投后估值9650亿美元,距离万亿美元俱乐部只差临门一脚。

    这轮融资里有个细节值得注意:其中150亿美元其实是超大规模云服务商之前已经承诺的投资,包括今年4月亚马逊承诺的50亿美元。换句话说,这次融资有一部分是在”追认”此前已经落地的承诺。但这丝毫不影响市场的兴奋程度——联席领投方阵容相当豪华:Altimeter Capital、Dragoneer、Greenoaks、红杉资本、Capital Group、Coatue、D1 Capital Partners全部在列。

    Anthropic融资
    Anthropic本轮融资估值已接近1万亿美元(图源:TechCrunch)

    融资同日,Opus 4.8来了

    融资消息公布的同时,Anthropic发布了Claude Opus 4.8。新版本在智能体任务和多步骤推理上有明显提升,同时更强调”诚实性”和”自我纠错”能力——这其实是Anthropic一贯的安全叙事在模型能力上的延伸。

    企业客户对Claude Code的需求增长非常猛。Anthropic透露,这款面向开发者的编程工具在过去几个月里推动营收快速拉升。5月初,公司年度经常性收入(ARR)已经突破470亿美元。《华尔街日报》甚至报道说,Anthropic预计营收将激增130%,并实现首个运营盈利季度。

    如果这些数据属实,Anthropic可能是目前头部AI实验室里最先跑通”商业化”的一家。OpenAI和Anthropic都在疯狂烧钱,但Anthropic似乎更早看到了正向现金流的曙光。

    这会是IPO前的最后一轮吗

    9650亿美元的估值,加上”IPO前最后一轮私募融资”的市场预期,让这轮融资有了不同寻常的意味。Altimeter Capital创始人Brad Gerstner在声明里说:”Claude的最新进展推动了全球最苛刻机构的大规模采用,这一势头让Anthropic能够引领AI创新的下一阶段。”

    投资方的构成也很有意思。除了传统VC,三星、SK海力士、美光这些芯片产业链的战略投资方也进来了。这说明Anthropic不仅仅在囤积算力,还在往产业链上游布局——算力、芯片、应用三层同时押注。


    竞争对手在做什么

    OpenAI今年3月完成1220亿美元融资,投后估值8520亿美元,和Anthropic的差距正在缩小。马斯克的SpaceX(已与xAI合并)IPO目标估值更是高达2万亿美元。

    三家的路线已经开始分化:OpenAI押注多模态和消费者应用,Anthropic押注企业级安全和代码助手,xAI押注算力和数据规模。接下来12个月,IPO窗口一旦打开,这场比赛的节奏还会更快。

  • 谷歌DeepMind预言:2026年AI将实现永生

    谷歌DeepMind预言:2026年AI将实现”永生”

    2026年刚开始,谷歌DeepMind研究员就抛出一颗重磅炸弹:持续学习(Continuous Learning)将在2026年取得突破性进展,AI有望实现”自我进化”,不再需要人类反复训练。这个预言如果成真,AI的发展节奏会被彻底改写。

    Google DeepMind AI Continuous Learning
    谷歌DeepMind对持续学习的技术预言 | 来源:新智元

    这个预测不是空穴来风。Jeff Dean在NeurIPS 2025的炉边谈话中就指出,当前大语言模型的核心痛点就是”缺乏持续学习”能力。2025年底,谷歌团队提出的”嵌套化方法”已经增强了LLM的上下文处理能力,实现了持续学习的雏形。


    2026年:持续学习成为AI核心节点

    Anthropic CEO Dario Amodei最近公开表示,持续学习将在2026年落地且可实用化。这个说法不是营销话术——Anthropic的工程师自曝,过去一个月对Claude Code的贡献全部由AI 100%生成代码,非技术程序员Ben Tossell四个月用Claude Code造了50个项目,全程几乎0人工干预。

    持续学习是AI自我改进、能力涌现的核心要素。实现后,模型无需通过重新训练升级,可在自编码过程中不断进化。

    OpenAI研究员Hieu Pham甚至预测,2026年AI将破解一个千禧年难题。这个预测如果成真,意味着AI的推理能力将跨越式提升,不再只是”预测下一个token”,而是真正开始”思考”。

    2030年:全自动编程触发ASI加速

    前OpenAI研究员Daniel Kokotajlo团队用自主开发的AI Futures Model做了个推演:2030年有望实现完全自动化编程,甚至有25%的概率在1年内实现向超级人工智能(ASI)的飞跃。

    这个推演的核心逻辑是:全自动编程(AC)是AGI研发进入自动化加速阶段的”开关”。一旦落地,ASI极有可能快速起飞。这个预测听起来科幻,但推演方法是有依据的——以”能力基准趋势外推”为核心方法,采用ETR的编码时间跨度套件(ETR-HRS)作为基准,推演达到AGI所需的算力与发展路径。

    AI研发自动化分为三个阶段:

    • 阶段1:自动化编程——定义自动化编程器(AC)可完全替代AGI项目的整个程序员团队
    • 阶段2:自动化研究品味——研究品味指确定研究方向、挑选实验、解读结果、提取知识的能力;该阶段预测从AC进化到超人类AI研究员(SAR)的时间
    • 阶段3:智能爆炸——追踪三个里程碑:超智能AI研究员(SIAR)、顶尖专家级AI(TED-AI)、超级人工智能(ASI)

    2050年:诺奖级科研的主力军

    《自然》(Nature)杂志展望:到2050年,AI系统或将成为”诺奖级”科学研究的主力军。这个预测不是瞎猜——《超级智能:路径、危险与策略》作者Nick Bostrom预计AGI将在2050年前后出现,可回答当前大部分原则上可由科学解答的问题。

    伦敦研究与前瞻公司Outsmart Insight联创Alex Ayad提出了一个”黑灯实验室”场景:由AI算法驱动的自主系统结合机器人实验员,可24小时不间断攻克生物技术难题,全程无需人类在场。墨西哥国立自治大学物理学家Juan Carlos Hidalgo预测,在AI辅助下2050年核聚变能源成熟的前景”相当可期”。


    这件事为什么重要

    谷歌DeepMind这个预言的价值在于,它给出了一个明确的技术路线图:2026年持续学习落地 → 2030年全自动编程 → 2050年AI主导诺奖级科研。这个路线图如果成真,人类在科学研发中的角色会被根本性改变。

    现在下结论还太早。持续学习的技术路径还没收敛,全自动编程需要的不仅是代码生成能力,还有”研究品味”这种很难量化的能力。但方向已经清楚了:AI正在从”工具”变成”合作者”,再变成”主导者”。这个过程的节奏,可能比大部分人预期的快。

    对于开发者和企业来说,现在要问的问题不是”AI会不会替代我”,而是”我怎么在AI持续进化的环境里找到自己的位置”。这个答案,2026年可能会有第一部分线索。

  • MIT科技评论2026年AI十大趋势:去伪存真的关键之年

    MIT科技评论2026年AI十大趋势:去伪存真的关键之年

    2026年4月,MIT科技评论首次推出”当下AI领域最重要的10件事”年度清单。这份报告来得正是时候——AI行业喧嚣不断,泡沫和炒作混在一起,能看清方向的声音越来越少。MIT的编辑团队花了大量时间筛选,最终给出这份清单,目的很明确:剔除噪音,找出真正推动AI发展的核心力量。

    MIT Technology Review AI Trends 2026
    MIT科技评论2026年AI十大趋势封面图 | 来源:MIT Technology Review

    这份清单和MIT传统的”10项突破性技术”榜单有所不同。以前的榜单更偏重技术本身,而这一次的视角更宽——它看的是整个AI生态里,哪些力量在真正改变游戏规则,哪些只是昙花一现的炒作。


    一、人形机器人训练数据:教AI理解物理世界

    大语言模型的训练用的是人类文本,而人形机器人的训练数据是什么?是人类的动作视频。这个逻辑很直接——就像文字让模型学会”说话”,视频能让机器人学会”行动”。现在已经有公司在大规模做这件事:建大型训练中心,让工作人员重复做特定任务,采集动作数据;还有的用”傀儡式”操作,让海外人员远程操控机器人,记录每一次移动。

    问题是,这项投入巨大,但结果还没人说得准。机器人能不能真的从视频里学会灵活操作?还是说需要更多维度的数据?这个方向值得盯紧。

    二、大语言模型+:下一站在哪里?

    大模型已经席卷全球,整个行业都在问同一个问题:下一代突破在哪里?基础优化空间越来越小,但大模型本身不会被淘汰。MIT的编辑们认为,这个技术还有很多潜力没挖完,关键是往哪个方向挖。

    大语言模型不会消失,它只是刚刚开始。真正的问题 是:我们能让它做什么更多的事?

    三、升级版诈骗:AI让攻击成本暴跌

    这是清单里最让人不安的一条。AI正在让诈骗和黑客攻击变得前所未有的容易——速度更快、成本更低、操作更简单。以前需要专业技术才能做的攻击,现在门槛被AI砸到了地上。这个趋势在2026年会继续恶化,几乎没有放缓的迹象。

    四、世界模型:AI的下一个前沿

    现在的AI模型能聊天、写代码、生成图片,但它们不理解物理世界的运作规则。世界模型(World Models)要解决的正是这个问题——让AI真正”理解”外部世界,而不只是预测下一个token。如果这个目标实现,AI就能真正进入物理场景落地,而不只是停留在屏幕里。

    五、新型作战指挥室:AI进入军事决策

    算法早就让军事的一些基础工作自动化了,但生成式AI正在进入更高层的决策环节。指挥官开始认真参考AI给出的建议,这个变化正在重塑军队的情报共享方式、和大型科技公司的合作模式,以及致命决策的制定流程。这件事的影响面很广,而且不只是技术问题。

    六、武器化深度伪造:威胁已成现实

    长期以来被预测的”武器化深度伪造”威胁,在2026年已经成为现实。生成式AI技术的进步,加上Grok模型大规模生成非自愿色情图像、美国政府部门用这项技术制作宣传内容,这些事件加在一起,让深度伪造从”潜在风险”变成了”正在发生的事实”。

    七、智能体编排:从单打独斗到团队协作

    第一代AI智能体只能做单一任务——运行浏览器、写几行代码,而且各自为战。下一代智能体的方向是”编排”:多个智能体协作,分工完成复杂的长距离任务。这个变化一旦完成,AI能做的事情会比现在多出一个数量级。

    八、中国的开源押注:免费策略赢得全球开发者

    中国AI实验室把前沿模型免费开放,这个策略为他们赢得了全球开发者的认可和口碑。现在的问题是,这种模式能不能持续?财务上怎么算账?但不管怎样,全球开发者已经开始基于中国的开源模型构建各类应用,这个趋势已经成型了。

    九、人工智能科学家:AI开始做科研

    高校和企业都在开发能自主完成科研任务的AI智能体,把它们当作真正的协作者和科学家来用。有人甚至预测,这类AI科研助手未来有可能做出诺贝尔奖级别的研究成果。这个说法听起来夸张,但研发进度比很多人想象的快。

    十、反AI抵制运动:反弹正在发生

    AI不受限制地发展了这么多年,现在全球范围内出现了强大的反AI抵制浪潮。从保守派到自由派,从艺术家群体到工会,相关活动人士的声音正在扩大,而且已经开始取得一些小范围的胜利。这个趋势在2026年会继续发酵。


    我的看法

    读完这份清单,一个感受很强烈:AI行业正在从”能做什么”转向”应该做什么”。前几年大家都在比参数、比 benchmark,现在开始有人认真问这些问题——AI用在军事上边界在哪里?深度伪造谁来管?开源模式能不能持续?

    这份清单里我最看好”世界模型”和”智能体编排”两条线,这两个方向一旦突破,AI的应用场景会大规模扩展。最担心的当然是”升级版诈骗”和”武器化深度伪造”,这两个方向的技术进步速度远远快于监管跟进的速度。

    至于”反AI抵制运动”,我觉得这是健康的信号。任何技术发展到一定阶段,都需要来自社会的反馈和约束,AI也不例外。

  • 日系动漫武士公主时尚大片

    日系动漫武士公主时尚大片

    日系动漫武士公主时尚大片



    🤖 ChatGPT

    🇺🇸 English Prompt

    Use uploaded reference image as the main character reference.Create a cinematic Japanese anime warrior princess fashion editorial.Include katana close-up portrait, cherry blossom walking shot, traditional temple frame, dramatic wind-action pose, and royal cinematic beauty 
    shot.Style: ultra-realistic anime, vibrant cherry blossom colors, detailed silk kimono, dramatic anime lighting, cinematic Japanese fantasy atmosphere.

    🇨🇳 中文提示词

    使用上传的参考图作为主角参考。创建一个电影感的日系动漫武士公主时尚社论。包括武士刀特写肖像、樱花散步镜头、传统寺庙构图、戏剧性的随风动作姿态以及皇家电影级美感镜头。风格:超写实动漫,鲜艳的樱花色彩,精致的丝绸和服,戏剧性的动漫光影,电影级的日本奇幻氛围。
  • 超现实失落海洋文明水下角色展示板

    超现实失落海洋文明水下角色展示板

    超现实失落海洋文明水下角色展示板



    🤖 ChatGPT

    🇺🇸 English Prompt

    A surreal underwater cinematic character board from a lost ocean civilization. Floating ruins, glowing coral structures, and deep blue light rays cutting through water. Characters shown in elegant aquatic suits, bio-luminescent ornaments, and flowing fabric reacting like liquid. Full-body turnarounds feel weightless and dreamlike. Close-ups show bubbles, water distortion on skin, glowing tribal markings, and emotional serenity. Ultra cinematic underwater photography realism.

    🇨🇳 中文提示词

    一个来自失落海洋文明的超现实水下电影角色展示板。漂浮的遗迹、发光的珊瑚结构,以及穿透水面的深蓝色光束。角色穿着优雅的水生套装、生物发光饰品,以及像液体一样反应的流动织物。全身转台展示感觉轻盈且如梦似幻。特写镜头显示出气泡、皮肤上的水波扭曲、发光的部落印记以及情感的宁静。超电影级水下摄影写实主义。
  • MoneyPrinterTurbo:66.6K Stars!AI短视频一键生成,让内容创作不再靠体力

    MoneyPrinterTurbo:66.6K Stars!AI短视频一键生成,让内容创作不再靠体力


    MoneyPrinterTurbo Web界面

    MoneyPrinterTurbo Web 操作界面

    📌 项目简介

    MoneyPrinterTurbo 是一个基于AI大模型的短视频一键生成工具。只需提供一个视频主题关键词,就可以全自动完成:文案生成 → 视频素材匹配 → 字幕生成 → 背景音乐搭配 → 高清短视频合成,全流程无需人工干预。

    66.6K+
    GitHub Stars

    多模型
    AI 接入支持

    双端
    Web + API

    MIT
    开源协议

    ⚙️ 安装要求和过程

    环境要求

    • Python 版本:推荐 Python 3.11
    • 依赖管理:优先使用 uv 工具
    • 必要依赖:ImageMagick(图片处理)、ffmpeg(视频处理)
    • 最低配置:4核CPU、4GB内存
    • 推荐配置:6-8核CPU、8GB内存、4GB显存GPU

    快速安装步骤

    # 1. 克隆项目
    git clone https://github.com/harry0703/MoneyPrinterTurbo.git
    cd MoneyPrinterTurbo
    
    # 2. 配置 API Key(复制配置模板)
    cp config.example.toml config.toml
    # 编辑 config.toml,填入 pexels_api_keys 和 LLM API Key
    
    # 3. 安装依赖(推荐使用 uv)
    uv python install 3.11
    uv sync --frozen
    
    # 4. 启动 Web 界面
    uv run streamlit run ./webui/Main.py --browser.gatherUsageStats=False

    💡 国内用户推荐:LLM 接入优先选择 DeepSeekMoonshot(Kimi),无需VPN,注册即送额度,调用稳定。

    ✨ 核心功能

    ① 全流程自动化生成

    只需输入主题/关键词,自动完成文案生成、高清无版权素材匹配、字幕生成、背景音乐搭配,最终合成高清短视频,全程无需人工干预。

    ② 多场景尺寸适配

    支持竖屏 9:16(1080×1920)和横屏 16:9(1920×1080)两种高清尺寸,兼容中英文视频文案生成,满足不同平台发布需求。

    ③ 灵活自定义能力

    支持 AI 自动生成文案或自定义文案,可调整字幕字体/位置/颜色/大小/描边,支持自定义背景音乐和本地素材,批量生成多个视频。

    ④ 多模型兼容

    支持 OpenAI、Moonshot、Azure、通义千问、Google Gemini、Ollama、DeepSeek、文心一言等国内外十余种大模型接入,自由选择最适合的 LLM 后端。

    ⑤ 多端使用支持

    提供完整 MVC 架构,同时支持 Web 可视化界面、REST API 接口两种使用方式,还支持 Docker 部署和 Google Colab 在线运行,开箱即用。

    🎬 典型使用场景

    场景一:自媒体短视频批量生产

    自媒体运营者需要每天稳定输出高质量短视频内容,但文案创作、素材搜集、剪辑合成耗时费力。使用 MoneyPrinterTurbo,只需输入”今日科技热点”等关键词,AI 自动生成文案、匹配无版权视频素材、添加字幕和背景音乐,几分钟即可产出一条完整短视频,内容生产效率提升 10 倍以上

    场景二:企业营销视频快速制作

    电商运营或市场人员需要为产品制作营销短视频,但缺乏专业剪辑能力。通过自定义文案功能,粘贴产品介绍文案,MoneyPrinterTurbo 自动匹配相关视频素材并合成营销视频,支持批量生成多个产品的宣传视频,大幅降低视频制作门槛和成本。

    场景三:知识分享内容创作

    知识博主需要将长篇文章或知识点转化为短视频内容。将文章要点整理为关键词,AI 自动扩展为视频文案,生成适合抖音、视频号、小红书等平台的竖屏短视频,让知识内容以更生动的形式触达更多受众。

    💡 推荐理由

    MoneyPrinterTurbo 是我见过的最完整的 AI 短视频生成开源方案。它不只是简单地拼接 AI 能力,而是真正从创作者的实际痛点出发,把视频制作的全流程——创意、文案、素材、配音、字幕、剪辑——全部打通。

    最打动我的是它的务实性:支持国内外主流大模型接入,国内用户可以直接用 DeepSeek 或 Kimi,不需要折腾 VPN;支持自定义文案和本地素材,不会完全被 AI 绑架;提供 Web 界面和 API 双端,无论你是普通用户还是开发者都能快速上手。

    当然,AI 生成的视频质量还无法和专业人工剪辑相提并论,素材匹配的准确性也有提升空间。但作为内容创作的效率工具,它已经足够惊艳。对于需要批量生产短视频内容的自媒体运营者来说,这是一个值得深入研究的开源项目。

    🖼️ 界面预览

    Web界面

    Web 可视化操作界面

    📥 下载地址

    🌐 官方网站:https://github.com/harry0703/MoneyPrinterTurbo

    🐙 GitHub 仓库:https://github.com/harry0703/MoneyPrinterTurbo

    📦 一键启动包:Windows 用户可直接下载项目 Release 中的一键启动包,解压即跑

    🐳 Docker 部署:docker-compose up 一键启动

    ☁️ 在线体验:支持 Google Colab 在线运行,无需本地配置环境


    📌 开源自尊:本项目采用 MIT 开源协议,可自由用于个人和商业场景,仅需保留版权声明。如果你也在探索 AI + 内容创作的方向,强烈建议深入研究这个项目,一定会有所收获。

  • 谷歌I/O 2026全记录:Gemini Spark永久在线,智能眼镜今秋开卖

    5月19日,谷歌I/O大会开幕。主题演讲持续了两个小时,核心信息只有一句话:Gemini不再是聊天工具,而是要替你干活。

    这次大会发布的东西不少,但有一条主线贯穿全场——把AI智能体塞进你每天用的所有谷歌产品里:搜索、Gmail、YouTube、Docs、Chrome,一个不落。

    谷歌说现在有9亿人在用Gemini,人们已经用它生成了超过500亿张图像。2026年的目标是让Gemini成为你互联网的”执行层”。

    搜索的25年来最大重构

    搜索框变成了”智能搜索框”——AI代理直接嵌在里面,当天就向全量用户推送。你搜”黑洞”,搜索结果页不是十蓝色链接,而是AI直接生成一个可视化解释视频,嵌在结果页里播放。

    夏天还会上线”生成式UI”功能:搜索结果根据你查的内容类型自动调整布局。查新闻、查视频、查图片,每种场景下搜索结果的呈现方式都不一样,是AI实时生成的界面。

    Gemini Spark:谷歌版OpenClaw

    这是本次大会最值得关注的产品之一。Gemini Spark是一个永久在线的个人AI代理,跑在谷歌云上——就算你关了电脑、手机没电,它还在云端继续跑任务。

    它能读取你的谷歌硬盘文件,知道你的日历安排,理解你的生活节奏。你跟它说”帮我策划街区派对”,它会自己发邮件、追踪采购进度、发跟进邮件,全程不需要你盯着。涉及付款的关键节点才会来问你确认。

    目前Spark只支持谷歌自家服务,夏天会接入Chrome浏览器和第三方服务。这个产品的定位很清晰:跟OpenClaw正面竞争。

    智能眼镜今年秋天就卖

    谷歌联合三星和眼镜品牌Warby Parker、Gentle Monster做两款智能眼镜,属于Android XR平台。

    • 音频版:今年秋季上市,镜腿有扬声器,有摄像头,能看见你看见的东西,支持实时跨语言翻译
    • 带显示屏版:还在研发,上市时间更晚,可以在镜片上显示短信、导航、搜索结果

    两款都支持调用谷歌的图像生成工具Nano Banana——你拍一下眼前的场景,AI可以在画面上叠加虚拟物体或特效,没显示屏的版本会把生成内容推到你的手机或安卓手表上。

    其他值得关注的发布

    Gemini Omni:对标Sora 2的视频生成模型,特色是”真实感”——可以把你拍的自拍视频换背景、换风格、换环境,人物表演保留,场景全部AI重绘。轻量版OmniFlash当天就向Pro和Ultra订阅用户开放了。

    通用购物车:谷歌要做跨网站的购物车,你在不同电商网站逛,把想买的东西都加进这个统一购物车,AI帮你比价、提醒降价、推送新配色。结账时谷歌的安全支付系统可以一次性结清跨店铺订单。

    第八代TPU:训练性能提升3倍,推理专用版本每秒能生成1500个token。谷歌2026年在算力基建上的投入预计达到1900亿美元。