标签: AI

  • GPT-5.4 自己设计实验改进药物合成,AI 自主科研走到哪一步了?

    GPT-5.4 自己设计实验改进药物合成,AI 自主科研走到哪一步了?

    OpenAI 和波兰化学AI公司 Molecule.one 本周公布了一项引人注目的研究成果:GPT-5.4 在接入化学AI代理 Maria 之后,近乎自主地改进了药物合成中一个长期令人头疼的反应——Chan-Lam 偶联反应。说”近乎自主”,是因为 AI 负责出主意、设计方案、解读实验数据并提出下一步动作,而人类化学家仍在高层引导、纠正细节和复现关键实验等环节不可或缺。

    一个让化学家头疼的反应

    Chan-Lam 偶联是化学家用来搭建碳氮键(C-N)的经典反应,而碳氮键在药物分子里几乎无处不在——抗癌药、抗菌药、利尿剂里都有它的身影。问题在于,这个反应对底物的”脾气”很挑,尤其是用伯磺酰胺(primary sulfonamide)和硼酸去做偶联的时候,产率历来很低,经常让化学家不得不放弃一个有希望的分子,或者花大力气另找合成路线。

    OpenAI 和 Molecule.one 的研究团队给 GPT-5.4 下了一道很开放的指令:去改进一类重要的反应。至于怎么改、改哪个,全权由 AI 自行判断。于是系统开始自主运转——它生成研究方案、设计并执行实验、分析数据、再据此提出下一轮该尝试什么。

    “这是有机化学领域首个由 AI 近乎自主完成的发现。”——Molecule.one CTO Stanisław Jastrzębski

    AI 提出了一个连人类都意外的方案

    在 GPT-5.4 生成的众多方案中,编号 OAI-M1-03 的那个提出了一个让人类化学家都感到意外的思路:GPT-5.4 自己判断伯磺酰胺是一类又难又有价值的底物,然后提出——用 TEMPO 这种温和的氧化剂当添加剂,也许能改善这个反应。

    这个建议让化学家们眼前一亮。随后的测试里,十种氧化剂中正是 TEMPO 跑出了最好的结果。更妙的是,系统后续还发现 TEMPO 可以换成便宜得多的类似物 4-hydroxy-TEMPO,而性能几乎不打折。

    整个过程中人类做的最大一次干预,是叫停了用 DMSO 当溶剂的方案——因为化学家担心它会和用作对照的强氧化剂起反应。这类判断目前仍需要人类把关,但 AI 已经能决定”下一步试什么”,这在科学研究中是一个重要的里程碑。

    数据说话:AI 的实验量有多大?

    • 两轮实验下来,Maria 一共跑了 10080 个反应——这比一个化学家每天做三个、连做十年还要多。
    • 优化后条件下,测试的硼酸中有 88% 产率提升,磺酰胺中有 83% 提升。
    • 平均产率从 16.6% 涨到 25.2%。
    • 产率超过 30% 的反应占比,从 15.6% 提高到了 37.5%。
    • 人类化学家手工验证了 14 对底物中的 11 对,产率确实提高了,其中 8 对涨了两倍以上。

    “近乎自主”,而非”完全自主”

    整个实验过程历时两个半月——从 3 月 4 日发出第一个 prompt,到 6 月 4 日把 OAI-M1-03 的结果交给外部专家验证。其中两个半月在做实验,最后半个多月是人类化学家撰写和核实结果。

    OpenAI 在声明中特别强调,这套流程仍然是”近乎自主”(nearly autonomous)而非”完全自主”。理由很明确:人类化学家始终在做重要决策。模型负责提出关键的研究想法,人类则提供高层引导和风险判断、纠正实验细节、帮忙备料配试剂,还亲手重复了关键实验。在这个过程中,人的判断仍然是不可或缺的。

    那么,AI 实现药物全自动研发还有多远?从这次的成果来看,前沿模型已经能够支持科学研究的大部分环节——审查文献、提出假设、设计实验、解释数据,以及发现人类专家可以验证的成果。但”完全自主”的药物研发,至少在今天,仍然是一个正在靠近而尚未抵达的里程碑。

    📎 原文来源:OpenAI 官方博客 | 中文编译:量子位
  • 当AI代理开始「成群结队」地上网,Google DeepMind说:得先研究一下会出什么事

    当AI代理开始「成群结队」地上网,Google DeepMind说:得先研究一下会出什么事

    一个人干坏事,和一万个人同时干坏事,完全是两个概念。AI代理也是一样。Google DeepMind的AGI安全与对齐研究负责人Rohin Shah最近在担心一件事:当数以百万计的AI代理同时在线、互相交互的时候,会发生什么?

    这个问题听起来有点遥远,但Shah说:还有几个月就来了。他没有危言耸听——AI代理正在从「演示视频」走向「真实部署」,而当数量突破临界点,行为模式可能完全不一样。

    1000万美元,买一个研究领域

    为了未雨绸缪,Google DeepMind在2026年6月联合几家机构宣布了一笔1000万美元的研究资金,专门用来研究多智能体系统的安全风险。

    跟Google DeepMind一起出钱的包括:施密特科学基金会(Eric Schmidt夫妇的慈善基金)、英国政府的「登月局」ARIA、非营利研究组织Cooperative AI Foundation、以及Google的慈善部门Google.org。

    AI多智能体系统安全概念图
    多智能体AI系统的安全风险正在成为新的研究前沿(配图由AI生成)

    Shah说,这笔钱的主要目的是「启动学术界对多智能体安全的研究」。工业界实验室忙着做产品、冲估值,没人仰望星空——学者的优势是可以想得很远,包括那些工业界「脑子里排不上号」的问题。

    「主要问题是,多智能体安全几乎还不是一个真正的研究领域。我们希望它成为。」
    ——Rohin Shah,Google DeepMind

    风险到底是什么?

    Shah和施密特科学的James Fox说,最主要的担心是:现在互联网上已经有的坏事——诈骗、网络攻击、恶意软件——到了AI代理时代,会被「超级加倍」。

    比如「提示注入」(prompt injection):如果一个AI代理被喂了恶意指令,它就会变成一台自动行动的恶意软件,而且比任何人类黑客能干的都多。Fox说:「我们的数字公共空间是社会运作的基础,你真的不希望它陷入无政府状态。」

    为什么这个问题特别难?

    你不能用研究单个代理的方法来研究多代理系统。Fox说,基于LLM的AI代理不总是理性行动,而多代理系统的复杂性来自于「海量交互同时发生」。

    唯一理解它的方法,是在沙箱里做逼真的模拟。有些研究者(包括Google DeepMind的一个团队)甚至认为:通用人工智能(AGI)可能不是来自于单个超级模型,而是来自于一种「代理蜂巢思维」——多个代理的能力加起来大于部分之和。


    不是只有Google在担心

    Google DeepMind不是唯一一家对自己的技术感到担心的AI巨头。几周前,Anthropic发布了基于「零信任」原则的AI代理部署指南——零信任是网络安全里的一个思路,核心假设是:系统一定有漏洞,代理可能是攻击者,入侵一定会发生。

    以色列特拉维夫网络安全公司Akeyless的联合创始人兼CTO Refael Angel说:「过去所有的安全方法都假设机器是人类写的软件,走固定路径、做固定事情。代理打破了所有这些假设。它会推理,它会即兴发挥,它可能被人用一句话劫持。」

    Angel欢迎这笔1000万美元的研究资金,但他提醒:安全研究者容易沉迷于「极端假设场景」,而忽视了已经发生的无聊问题。这也是Shah他们在努力平衡的——既要看远,也要看准。

    我们还有多少时间?

    Shah说,我们还有「几个月」的时间,代理就会在经济中大规模部署,到那时潜在风险就成了真正的问题。他想跑在这个时刻前面。

    Fox补充说:几年前还是假设的风险,现在已经很真实了。「未来来得比预期快。」

    1000万美元,对于Google DeepMind自己的研发预算来说,是九牛一毛。但这笔钱的意义在于:把多智能体安全这个问题,从工业界的「顺手看看」变成学术界的「正经研究领域」。当AI代理开始成群结队地上网,我们最好已经想清楚会发生什么。

  • 数据中心不想等电网扩容了,它们开始学会「看脸色」用电

    数据中心不想等电网扩容了,它们开始学会「看脸色」用电

    当几百万英国人同时在世界杯期间烧水泡茶,电网会经历什么?答案是:一场突如其来的用电高峰。但2025年12月的一次模拟实验显示,如果伦敦的一台数据中心当时装了一款叫Conductor的软件,它会在千钧一发之际自动给芯片降速,把电让出来。

    这听着像科幻,但已经是真实产品在测试了。Emerald AI在做的事很简单——让数据中心变成电网的「好邻居」,而不是永远张嘴要电的贪吃蛇。

    等等,电网怎么了?

    AI boom来了,数据中心想上网,电网说:排队吧您内。美国最大电网运营商PJM处理新发电项目并网要8年。数据中心盖好了,电接不进来,这生意怎么做?

    传统思路是:建更多电厂。xAI在孟菲斯搞燃气轮机,微软和Oracle提议搞超大型离线数据中心。问题是:燃气轮机不够用,新的电厂环评和建设又要好几年。这条路走不通。

    数据中心电网灵活性示意图
    科技公司在数据中心能源问题上开始寻找新出路(配图由AI生成)

    灵活性:给电网留点余地

    有一派人说:换个思路。电网其实有闲力,只是你不会用。2025年Duke大学的研究发现,如果数据中心愿意一年只让电0.25%的时间(大约22小时),美国电网能多挤出76GW——够到2030年的数据中心增长需求了。

    普林斯顿大学和两家电网现代化公司给PJM区域做了个测算:一个500MW的数据中心如果能做到一年99%以上的时间不拉闸,并网速度可以快3到5年。这就是「灵活性」(flexibility)的核心逻辑。

    数据中心不再要求「随时给我满电」,而是跟电网商量:「我可以在用电高峰时少拿一点,你让我早点并网行不行?」

    几家公司在做的事

    Emerald AI的产品Conductor就是干这个的。它在2025年12月做了那个「英德足球赛」模拟:AI程序在几百万个电热水壶同时启动的瞬间,给数据中心发指令降速。CEO Josh Parker说:「AI工厂的灵活性,是AI需求和电网局限之间的桥梁。」

    GridCare的思路更激进一些。这家硅谷创业公司用生成式AI给电网建「数字孪生」,把发电厂、输电线、变电站、家庭用电全部建模,然后找到在不牺牲可靠性的前提下解锁容量的方案。CEO Amit Narayan打了个比方:电网的平均利用率只有30%左右,如果你是个航空公司,飞机利用率30%,你不会去买新飞机。

    灵活性并网的好处

    • 电网更稳定。数据中心在用电高峰时让电,能避免拉闸限电。
    • 少建电厂。如果现有容量能挖潜,就不需要为了AI狂建天然气电厂。
    • 电费可能更低。Duke大学2026年2月的研究发现,灵活性能让电价降低0.5%到2.8%。

    为什么科技巨头们还在搞燃气轮机?

    听起来很美好,但为什么微软、Oracle、xAI还在搞离线电厂和燃气轮机?一个字:惯性。电网的设计哲学是「保守」——必须按照最高需求来建设,宁可闲置也不能掉链子。

    数据中心的传统做法也是「我要全功率」,因为每一秒的算力都可能意味着钱。xAI在孟菲斯的做法就是典型案例:等不了电网扩容,直接把燃气轮机用卡车拉过来。结果?当地居民和监管机构不干了,排放和污染问题一堆。

    但变化在发生。Emerald AI的首席科学家Ayse Coskun观察到一个趋势:「运营商越来越愿意用某种程度的灵活性,来换取更快的并网速度。」

    这不是一个「技术能不能做到」的问题,而是一个「谁先迈出第一步」的问题。2026年,这笔账会被算清楚的。

  • MetaGPT 62K+ Stars:首个AI软件公司多智能体框架,自然语言编程的未来

    MetaGPT Logo

    📦 项目简介

    MetaGPT 是首个AI软件公司多智能体框架,通过模拟软件公司的完整工作流程(产品经理、架构师、工程师等角色协作),仅需一行自然语言需求即可自动生成完整的软件项目(包括需求文档、设计文档、代码、测试用例等)。

    62K+
    GitHub Stars

    MIT
    开源许可

    10+
    智能体角色

    ⚙️ 安装要求和过程

    环境要求

    • Python: 3.9 ≤ 版本 < 3.12(推荐 Python 3.9)
    • Node.js: 需要安装 Node.js 和 pnpm
    • LLM API: OpenAI / Azure / Ollama / Groq 等(二选一或配置多个)

    快速安装

    方式一:稳定版安装(推荐)
    pip install --upgrade metagpt

    方式二:最新版安装
    pip install --upgrade git+https://github.com/geekan/MetaGPT.git

    方式三:Docker 安装
    docker run -it metagpt/metagpt:latest

    配置 LLM API

    # 创建配置文件
    metagpt --init-config
    
    # 编辑 ~/.metagpt/config.yml,填入你的 API Key
    # 例如 OpenAI:
    # llm:
    #   api_type: openai
    #   api_key: "sk-xxx"
    #   model: "gpt-4"

    🎯 核心功能

    1. 全流程软件公司模拟 🏢

    内置产品、架构、项目管理、工程等多角色智能体,严格遵循软件行业 SOP(标准作业程序),从需求输入到最终代码产出全流程自动化。每个角色都有其专业知识和职责,共同协作完成复杂软件项目。

    2. 自然语言编程 💬

    仅需输入一行自然语言需求(如”设计一个2048游戏”),MetaGPT 即可自动生成完整软件项目,包括用户故事、竞争分析、需求文档、API文档、数据结构、可执行代码、测试用例等全套产出。

    3. 数据解释器(Data Interpreter)📊

    内置专门的数据分析角色,支持数据分析、代码生成、可视化绘图等任务。例如可直接对 sklearn 鸢尾花数据集做分析并生成图表,大幅简化数据科学工作流程。

    4. 多模型支持 🔄

    兼容 OpenAI、Azure、Ollama、Groq 等多种大模型,可通过配置文件灵活切换。支持本地模型部署,保护数据隐私的同时降低API成本。

    5. 可扩展的多智能体协作框架 🤝

    支持自定义多智能体协作流程,适配不同复杂任务场景。开发者可以基于 MetaGPT 框架设计专属智能体,定义其角色、目标和协作方式,构建个性化的 AI 团队。

    MetaGPT 软件公司架构

    MetaGPT 模拟的软件公司协作流程

    💡 典型使用场景

    场景一:软件项目快速开发 🚀

    案例:输入”设计一个支持多人在线的2048游戏”,MetaGPT 自动生成:

    • 产品需求文档(PRD)
    • 系统设计文档
    • 完整的可执行代码(包含前端界面和游戏逻辑)
    • 单元测试代码

    原本需要一个软件团队几天甚至几周的工作,现在几分钟内即可完成原型开发。

    场景二:数据分析与可视化 📈

    案例:使用 Data Interpreter 角色分析销售数据:

    from metagpt.roles import DataInterpreter
    di = DataInterpreter()
    await di.run("分析sales.csv,生成月度销售趋势图和TOP10客户报表")

    MetaGPT 自动完成数据清洗、分析、可视化全流程,并生成专业的数据报告。

    场景三:多智能体辩论辅助决策 🤔

    案例:模拟多角色观点碰撞,辅助技术选型决策:

    • 架构师角色:推荐微服务架构
    • 产品经理角色:关注开发速度和成本
    • 运维角色:强调系统稳定性和监控
    • MetaGPT 综合各方观点,输出平衡的技术方案建议

    🌟 推荐理由

    MetaGPT 是我见过的最接近”AI软件公司”愿景的开源项目。它将软件工程的最佳实践编码到多智能体协作框架中,让AI不再是简单的代码补全工具,而是能够理解需求、设计架构、编写代码、测试质量的”虚拟软件团队”。

    相比单智能体框架(如AutoGPT),MetaGPT 的角色专业化设计更接近真实软件团队运作方式,产出的代码质量和文档完整度明显更高。特别是它对软件工程 SOP 的尊重(生成需求文档、设计文档、代码、测试的全流程),让我看到了AI辅助软件开发的真正潜力。

    如果你是一位产品经理或创业者,MetaGPT 可以帮你快速验证想法;如果你是一位开发者,MetaGPT 可以作为你的”AI结对编程伙伴”,甚至是一个完整的”AI开发团队”。

    📥 下载地址

    🌐 官方网站

    docs.deepwisdom.ai

    📦 PyPI 安装

    pip install metagpt

    🐳 Docker 镜像

    metagpt/metagpt:latest


    本文由 AI 自动生成

  • AI帮人打官司,法院先迎来了「AI幻觉」洪水

    AI帮人打官司,法院先迎来了「AI幻觉」洪水

    AI帮人打官司,法院先迎来了「AI幻觉」洪水

    科罗拉多州联邦地方法官Maritza Braswell,大部分时间在chambers里翻阅那些没有律师代理的当事人提交的文档。很多人请不起律师,还有些人的案子太弱或者太小,没有律师感兴趣。她仔细读每一份,知道独自走进法庭有多吓人。

    最近,跟全美很多法官一样,她注意到这类申请明显增加了。一项研究了2005年到2026年450万联邦民事案件的研究显示,没有律师代理的人提起的诉讼占比从2022年的11%增加到了2025年的16.8%。

    AI辅助法律文书
    越来越多没有律师代理的当事人开始使用AI来起草法律文书

    Braswell法官把这种跳跃归功于AI。”我确实把这归因于AI,因为我看到了AI的使用,”她说。作为一位懂技术的法官,她也用AI来审查法院文件,已经学会了识别大语言模型是怎么写作的。

    “但我确实看到了起草得更好的诉状,”她说。”虽然AI似乎在扩大诉诸司法的机会,但它似乎并没有提高人们胜诉的机会。”

    AI给诉讼踩了一脚油门

    为了测试AI是否真的在推动没有律师代理的人提起诉讼,这项研究的作者将1600份随机抽样的法院文件喂给了Pangram——一个商业AI文本检测器。被标记为包含AI生成文字的份额从2023年的1%上升到了2026年的18%。

    对Braswell法官来说,这不一定值得担心。虽然AI辅助申请的激增可能增加了法官的工作量,但她和许多其他法官发现,这些案件更容易裁决,因为AI正在帮助没有法律培训的人更好地阐述他们的论点。

    没有律师的人写的法庭文件是出了名的难懂。有些是手写涂鸦,接近胡言乱语,法官要花一段时间才能解码。无论多么晦涩,法官都必须善意地阅读它们。

    这些天,Braswell法官一直在比当事人自己写的申请更快地处理那些由AI起草的动议。”我必须非常小心,因为其中一些包含幻觉和错误,但有了他们的AI辅助,我通常能比没有时更好地理解他们在争论什么,”她说。

    聊天机器人-客户特权

    康涅狄格州联邦地方法官William Garfinkel,在法官席上已经30年了,思考过各种各样关于律师与客户关系的问题。最近,他一直在想,人们与提供法律建议的聊天机器人的对话是否应该享有特权,就像他们与律师的对话那样。

    “你可以提出一个很好的论点……与Claude或ChatGPT或Grok等大语言模型的对话应该得到某种保护,”他说。

    法院已经开始认真思考这个问题。今年2月,密歇根州的一家联邦法院裁定,一个没有律师代理的人为准备她的案件而与ChatGPT的对话是”工作成果”——受法律保护的、屏蔽对方获取的法律工作。

    但在同一天,纽约的一家联邦法院认定,一名刑事被告使用Claude生成的文件既不享有律师-客户对话特权,也不享有工作成果保护。法院辩称,Claude不是律师,用户对它的通信”没有合理的保密期待”。


    没有脉搏的 malpractice

    一些法官也在想,聊天机器人是否像律师一样,有责任提供好的法律建议。加州联邦地方法官Allison Goddard注意到,没有律师代理的人在试图评估案件价值时,经常从ChatGPT那里得到错误的建议。

    “你从哪里得到你想拿70万美元的想法?你去问ChatGPT了吗?”Goddard法官问一名在商店里滑倒的原告。然后她带着当事人过了一遍法律,解释为什么ChatGPT是错的,并建议一个更低的金额。

    然后是当聊天机器人犯这种错误时该谁负责的问题。今年3月,日本生命保险公司起诉OpenAI,声称ChatGPT在无执照的情况下从事法律业务。

    今年5月,OpenAI请求法院驳回此案,辩称ChatGPT不从事法律业务。”ChatGPT不是一个人,既没有也没有使用任何程度的法律知识或技能,”OpenAI在文件中说。此案仍在法院待决。

    各州已经开始权衡立法,让AI公司对聊天机器人提供糟糕法律建议负责。纽约在今年3月引入了一项法案,将禁止聊天机器人冒充律师。在国会,一系列法案已经被提出,禁止聊天机器人冒充律师、医生和其他有执照的专业人士。

    目前,人们将继续转向AI来做他们的律师。对他们很多人来说,回报大于风险。Braswell法官说:”这是一个真的很难 navigating 的系统。但有了AI,它变得不那么复杂了。”

  • 一家迈阿密AI创业公司说它突破了LLM十年的数学瓶颈,外界将信将疑

    一家迈阿密AI创业公司说它突破了LLM十年的数学瓶颈,外界将信将疑

    一家迈阿密AI创业公司说它突破了LLM十年的数学瓶颈

    一家叫Subquadratic的迈阿密AI创业公司,上个月从隐身模式走出来,扔了一颗重磅炸弹:他们说自己解决了一个卡了LLM近十年的数学瓶颈。

    细节很少,很多人不信。但Subquadratic开始拿出证据了——他们公布了第三方公司Appen对他们的新模型SubQ的独立评估结果。结果看起来,这家公司的说法或许值得认真看待。

    Subquadratic AI模型突破LLM瓶颈
    Subquadratic声称SubQ模型突破了LLM的二次方计算瓶颈

    根据Subquadratic的说法,他们开发了一种全新的LLM,叫SubQ,比市面上任何其它模型都更快、更便宜、能耗也低得多。公司还声称,SubQ一次性处理的文本量是最其它大多数模型的12倍,可以执行分析数百份文档或者整个代码库这样的数据密集型任务。

    SubQ在编码等关键任务上的表现基本上能跟Google DeepMind、OpenAI和Anthropic的最佳模型持平。

    问题就在于,这家公司一开始除了少数几个自己发布的测试分数之外,几乎没提供什么证据。而且SubQ至今还没有广泛开放给公众试用。

    所以Subquadratic的说法遭到质疑一点也不奇怪。AI工程师Dan McArthur在X上总结了很多人的反应:”SubQ要么是自Transformer以来最大的突破……要么它就是AI圈的Theranos。”

    注意力机制

    要理解为什么Subquadratic的说法很重要,我们需要深入了解一下大多数LLM是怎么工作的。LLM内部的核心机制是一种叫做”Transformer”的神经网络,它运行一个叫做”密集注意力”的过程。今天的LLM通常将多个Transformer串联在一起。

    密集注意力的工作原理是这样的:当Transformer处理一段文本时,它首先将每个词编码成一个数字,然后将每个数字与那段文本中的每个其它数字相乘。一段10000个词长的文本会触发近5000万次单独的乘法运算。这是大量的计算,也是LLM以能耗巨兽著称的主要原因。

    随着文本长度的增加,计算次数会急剧上升。词的数量翻倍,计算次数大致翻两番,这种增长速度被称为”二次方扩张”。

    削减成本

    Subquadratic的解决方案是抛弃密集注意力,转而使用”稀疏注意力”,这大幅减少了所需的计算次数。稀疏注意力不是将分配给每个token的数字与每个其它数字相乘,而是只选择其中一些数字来相乘。

    “稀疏注意力说,不是所有那些关系都重要,因为它们本来就不重要,”联合创始人兼CTO Alex Whedon说。”如果你在读一本书,你不会去看第一个词和第二个词,第一个和第三个——那太疯狂了。”

    这听起来简单,但Subquadratic也不是第一个尝试的。以前选择哪些数字相乘的技术,都没能产生一个能像密集注意力一样好地捕捉文档含义的机制。

    Subquadratic声称终于破解了这个问题。他们将SubQ宣传为第一个在性能上能与主流密集注意力模型匹敌的稀疏注意力LLM。

    “从历史上看,大多数机制都使用固定模式,”Whedon说。”这相当局限。我们的机制动态选择哪些是重要的,这是对每段文本即时计算的。”

    测试结果

    第三方公司Appen评估了SubQ。在一个纯粹的速度测试中,Appen发现SubQ比使用以前稀疏注意力技术的模型快56倍。在LiveCodeBench编码测试上,SubQ得分89.7%,跟其它顶级编码模型差不多。

    成本方面,根据Subquadratic的说法,通过RULER 128测试,运行Anthropic的Opus 4.6要花费2600美元。SubQ花了8美元。

    SubQ似乎确实能够处理非常大的数据集。该模型有一个长达1200万token的上下文窗口。今天大多数顶级模型的上下文窗口是100万token长。


    尽管得分很高,在更多人亲自上手试用模型之前,一些质疑是有道理的。独立AI研究员Will Depue说:”他们可能做出了真实有用的东西。但公开证据还不足以证明他们解决了二次注意力瓶颈这一更强硬的说法。”

    与此同时,Subquadratic联合创始人Whedon坚持认为,做出不同的东西是他唯一的选择。”如果你想构建一个有竞争力的模型,你必须要有新想法,”他说。

  • OpenAI数学模型推翻80年数学猜想,这次它没要人类帮忙

    OpenAI数学模型推翻80年数学猜想,这次它没要人类帮忙

    一道困了数学界80年的题

    Paul Erdős在1946年提出了一个看起来很简单的问题:平面上放n个点,最多有多少对点之间的距离恰好等于1?

    这个问题叫”平面单位距离问题”。直觉告诉你,如果把点摆成正六边形网格,单位距离的对数应该差不多和n成正比。Erdős的猜想就是这个意思——他猜上界是n的某个接近线性的函数。

    接下来的80年里,无数数学家在这个问题上留下过工作。Fields奖得主Terry Tao、Jean Bourgain都来试过。每次进展都只是把参数往前推了一点点,没有人能彻底证明它,也没有人能把它推翻。

    AI数学定理证明概念图
    OpenAI模型自主完成数学证明,推翻了困扰数学界80年的Erdős猜想

    OpenAI模型做了什么

    2026年5月20日,OpenAI联合创始人Greg Brockman在X上发了一条公告,语气平静得有些反常:

    “An OpenAI model has achieved a major breakthrough in mathematics, by disproving a central conjecture in discrete geometry that was first posed by Paul Erdős in 1946. This is the first time AI has autonomously solved a prominent open problem central to a field of mathematics.”

    这句话里有几个词值得停下来读一遍:autonomously(自主地)prominent open problem(核心开放问题)first time(首次)

    他们把一个通用推理模型拉过来,给了它一段文字描述的问题陈述,没有翻译成形式语言,没有人告诉它从哪个方向入手,也没有提供任何中间步骤的提示。模型返回了一段完整的证明。

    证明的核心结论是:存在一种n个点的平面配置,使得恰好等于1距离的点对数量至少达到n^(1+δ),其中δ是某个固定的正指数。这直接推翻了Erdős的猜想。

    和以前的AI数学工作有什么不一样

    过去几年,AI在数学上的进展已经有了几个值得注意的节点。AlphaGeometry在2024年能在奥数几何题上达到金牌水平,但它用的是神经网络加形式化符号系统的混合架构,整套推理框架是人工设计的。

    AlphaProof在2024年可以证明奥数中的竞赛题,也是在形式化证明语言(Lean)的框架里工作,问题被提前”翻译”成机器可操作的格式。

    它们很强,但有一个共同特点:人类的介入不只是提问,而是设计了整套工作框架。AI在其中像一个被放进跑道里的赛马,跑得很快,但跑道是人铺的。

    这次的OpenAI模型不同。它接收的是一段文字描述的数学问题,没有翻译成形式语言,没有人告诉它从哪个方向入手,也没有提供任何中间步骤的提示。它产出的是一段完整的证明,然后交给人类验证。

    数学家怎么看

    Fields奖得主Tim Gowers在看到这个结果后公开表示,这个结果引出了”真正有趣且微妙的问题”。他的措辞是克制的,但Gowers向来是这种风格。他没有说”AI成了数学家”,也没有说”这只是个工具”。

    这种克制本身说明了一些事情。数学界的主流分歧大致是这样的:支持者认为,AI在这道题上展示了跨域知识连接能力,把代数数论和平面几何拉到同一个框架里,这本身不是一件容易的事,哪怕对人类数学家也不是。

    反对者说,现有模型是”插值机器”,只能在训练数据的隐含模式里打转,难以实现真正的范式突破,比如微积分或广义相对论那种级别的飞跃。

    两种看法都有道理,但有一点正在变得难以否认:那种”大语言模型不可能做出真正的数学发现”的论断,需要重新校准了。

    这意味着什么

    这不是AI替代数学家的信号,但它确实是一个节点:AI作为独立提出数学论证的主体,而非单纯的辅助计算工具,已经在这道题上成立了

    对科研工作流来说,这个节点的含义比听起来更具体。如果一个通用推理模型可以接到开放问题、自主探索、产出可验证的证明,那么它在科研中的位置就不再只是”帮我查文献””帮我写代码”,它开始具备了参与”想问题”本身的可能。

    再说边界。这次的问题,尽管开放了80年,仍然属于一类有明确陈述、有清晰验证标准的数学问题。AI的证明是在一个相对封闭的问题空间里完成的。

    那些真正改变人类认知底层结构的发现,比如提出一个全新的数学分支,或者察觉到两个毫不相关领域之间的深层联系——这仍然是一个开放的问题。目前没有证据表明现有模型能做到这一点。


  • 现代汽车3.25亿美元买下波士顿动力全部股份,人形机器人终于要从实验室走到工厂了

    现代汽车3.25亿美元买下波士顿动力全部股份,人形机器人终于要从实验室走到工厂了

    从YouTube网红机器人到工厂打工人

    波士顿动力这家公司,大多数人认识它是因为那段在YouTube上疯传的机器人跳舞视频。Atlas人形机器人空翻、后空翻、跳街舞,看起来像是科幻电影里的场景。但问题一直摆在那儿:这些机器人能干什么实际的活儿?

    这个答案现在开始变得清晰了。6月19日,现代汽车集团宣布将以3.25亿美元收购软银持有的波士顿动力剩余9.65%股份,交易预计6月22日获批。这意味着波士顿动力将成为现代的全资子公司,现代100%控股这家机器人公司。

    现代汽车佐治亚州电动车工厂概念图
    现代汽车计划2028年让Atlas机器人在佐治亚州电动车工厂上岗

    一台Atlas要学多久才能干活

    波士顿动力CEO Robert Playter在1月CES展会上说了一个挺具体的目标:Atlas需要能在一天或两天内学会新的工厂任务,才能真正派上用场。这个标准听起来不高,但对人形机器人来说其实挺苛刻的。

    传统工厂自动化是”教一遍、重复千万遍”,机器人被固定在流水线上做同一个动作。人形机器人的卖点是灵活性——你得让它能适应不同的任务,而且学得够快,老板才愿意掏钱买。

    现代汽车不缺”第一个客户”。它拥有工厂、拥有整车项目,现在还100%拥有这家机器人公司。这种整合度,特斯拉Optimus做不到,Figure AI也做不到。

    软银为什么退出

    软银孙正义这次退出波士顿动力,不是因为不看好机器人。按照《华尔街日报》的报道,软银正在组建一家叫Roze AI的新公司,要用人工智能和机器人建设实体基础设施,包括数据中心。孙正义给Roze AI的目标估值是1000亿美元,计划今年就上市。

    3.25亿美元对孙正义现在的AI赌注来说,真的是小钱了。波士顿动力是一家需要慢慢养、慢慢打磨产品的硬件公司,而孙正义现在想要的是AI基础设施的大爆发。

    2028年是个关键节点

    现代汽车计划2028年把生产版Atlas部署到佐治亚州萨凡纳附近的电动车工厂。这不是概念验证,而是真正进入生产环境——在那里,Atlas得和传统自动化系统PK,证明自己值得被买下来。

    如果现代汽车能做到这件事,人形机器人的商业化路径就不再是”找个愿意尝鲜的工厂试点”,而是有了一家汽车巨头用自己的生产线和自己的机器人做背书。


  • browser-use:99.6k Stars!让AI代理自动操作浏览器,网页自动化从未如此简单

    browser-use:99.6k Stars!让AI代理自动操作浏览器,网页自动化从未如此简单

    browser-use logo
    browser-use – AI浏览器自动化工具

    📦 项目简介

    browser-use 是一个让AI代理能够自动操作浏览器的开源工具,通过自然语言指令即可完成各类网页操作,无需手动编写复杂的爬虫逻辑。无论是表单填写、网页信息提取,还是复杂的多步骤网页交互,AI都能帮你自动完成。


    ⚙️ 安装要求和过程

    环境要求

    • Python版本:≥3.11
    • 推荐包管理工具uv(也可使用pip等常规Python包管理工具)
    • 浏览器:自动安装Chromium(也可使用本地已安装的Chrome/Edge)

    快速安装步骤

    # 1. 初始化项目并安装browser-use
    uv init && uv add browser-use && uv sync
    
    # 2. 若本地未安装Chromium,执行以下命令自动安装
    uvx browser-use install

    可选配置

    • 如需使用云端能力,可前往 Browser Use Cloud 获取API Key,在.env文件中配置即可
    • 支持对接多种LLM提供商:自带优化后的ChatBrowserUse模型,也支持Google Gemini、Anthropic Claude、OpenAI等主流模型,还可对接Ollama运行本地模型

    💡 核心功能

    • 自然语言控制浏览器:支持AI代理通过自然语言指令自动完成各类网页操作,无需手动编写复杂爬虫逻辑
    • 双模式支持:提供开源版本云端托管版本两种使用模式,可按需选择
    • 丰富的工具集成:支持集成1000+第三方工具(如Gmail、Slack、Notion等),支持自定义工具扩展
    • CLI命令行支持:提供CLI命令行快速操作,提供持久化浏览器会话,适合快速迭代调试
    • AI编码工具集成:支持Claude Code等AI编码工具集成,可直接对接AI工作流

    云端版本专属能力

    • 更强的复杂任务处理能力,任务完成准确率远高于开源版本
    • 内置隐身浏览器指纹、代理轮换、验证码自动解决能力,避免被网站反爬检测
    • 支持持久化文件系统和记忆,适合长期运行的代理任务
    • 无需本地部署,开箱即用,支持大规模并行任务调度

    🚀 典型使用场景

    1. 个人效率提升:自动完成重复性网页操作,如批量填写表单、自动购物、自动整理网页信息等
    2. AI应用开发:作为AI代理的浏览器交互层,让AI具备操作网页的能力,开发智能助手类产品
    3. 企业级自动化:结合云端版本的扩展能力,实现大规模网页数据采集、业务流程自动化等场景
    4. 编码辅助:对接Cursor、Claude Code等AI编码工具,让AI可以直接操作浏览器验证代码效果、调试网页相关问题

    🌟 推荐理由

    在AI Agent爆发的2026年,让AI具备操作浏览器的能力,就像给AI装上了一双”眼睛”和”手”。browser-use不仅简化了浏览器自动化的开发流程,更重要的是它让AI真正能够与世界互动——从简单的信息查询到复杂的多步骤业务流程,都可以通过自然语言来完成。

    特别推荐它的双模式设计:如果你只是想快速尝试,开源版本足够使用;如果你需要生产级别的稳定性和扩展性,云端版本提供了完整的解决方案。这种灵活的设计理念,让不同需求的开发者都能找到适合自己的使用方式。

    另外,它对主流LLM的原生支持也是一大亮点。无论你用的是Claude、GPT还是本地部署的模型,都能无缝对接。这种开放性的设计,正是开源项目的魅力所在。


    📥 下载地址


    ⭐ 如果你觉得这个项目有帮助,欢迎到GitHub上给它一个Star!

  • Snap发布2200美元AR眼镜后股价暴跌:AI硬件的残酷商业现实

    Snap发布2200美元AR眼镜后股价暴跌:AI硬件的残酷商业现实

    Snap耗时十余年打造的AR眼镜Specs终于亮相,但登场即遇冷。公司股价一周内从5.86美元跌至4.83美元,跌幅超过5%。这家以”阅后即焚”起家的社交媒体公司,在AI硬件这条路上摔了一个大跟头。

    2200美元的眼镜,谁会买?

    Specs的定价是整场发布最让人咋舌的部分:将近2200美元一副。作为对比,Meta的Ray-Ban智能眼镜售价不到300美元,是Specs的约十分之一。

    更致命的问题是用户群错位。Snap的核心用户是青少年——这个群体根本掏不出2200美元买一副眼镜,无论它有多酷。Snap的股价走势说明,市场并不相信青少年会排队抢购Specs。

    Snap AR眼镜与股价走势
    Snap发布高价AR眼镜后股价应声下跌,AI硬件的商业现实比概念残酷得多。

    Spiegel的辩解站得住脚吗?

    CEO Evan Spiegel在CNBC采访中试图为定价辩护。他说:”看待Specs最重要的方式是把它当作一台计算机,所以它们的定价和其他高端计算机或高端笔记本电脑差不多。”

    Spiegel进一步说,Specs在AR市场中占据了一个独特定位——比Meta Ray-Ban功能强得多,又比Apple Vision Pro更便携。他用”既高度可穿戴,又具备令人难以置信的沉浸式计算能力”来形容这款产品。

    但市场的反应已经给出了答案:投资者不买账。股价在发布后持续走低,至今没有恢复到发布前的水平。

    Meta路线 vs Snap路线

    把Snap的困境和Meta对比一下,问题会更清楚。Meta的Ray-Ban智能眼镜走的是”低调融入”路线——看起来就是普通眼镜,功能克制(拍照、语音助手、听音乐),299美元的价格大多数消费者都能接受。结果:自2023年以来已售出超过200万副。

    Snap的Specs走的是另一条路:粗框、棱角分明的飞行员风格、巨型镜腿,定价2200美元。Spiegel说这是”高端时尚科技单品”,不是大众消费品。但问题是:有多少人在愿意花2200美元买一副Snap品牌的眼镜?这个数字恐怕不会太大。

    Snap今年已经裁员约1000人。在这样的背景下发布一款定价2200美元、市场反应冷淡的硬件产品,无疑是一次极高风险的押注。

    AI硬件的普遍困境

    Snap的困境折射出一个更大的问题:AI硬件行业普遍面临”概念性感,商业化难”的困局。过去一年,从智能眼镜到AI记事贴,各类AI硬件产品层出不穷,但真正卖出量、形成用户习惯的产品寥寥无几。

    即使是苹果,在Vision Pro上也遇到了类似的问题——技术足够先进,但3999美元的定价把绝大多数消费者挡在了门外。Snap试图在Meta和Apple之间找到一个”中间位置”,但这个位置究竟有多大市场,目前还是个巨大的问号。

    更重要的是,Snap把AR眼镜团队分拆成了独立公司Dotmo——这本身就是一个信号,说明Snap内部也意识到,做AI硬件的成本太高,不如分拆出去独立融资。这种”卸包袱但不撒手”的策略,在资本市场或许能讲通,但对消费者来说,只会让品牌印象更加模糊。

    股价的反应是最诚实的。当你花十余年时间和大量研发费用做出来的产品,在发布后股价反而跌了,那说明市场对你讲的故事,已经不再买账了。