标签: AI编程

  • 【开源推荐】autoresearch:86K+ Stars!Karpathy开源AI自主研究工具,让Agent通宵帮你优化LLM训练

    【开源推荐】autoresearch:86K+ Stars!Karpathy开源AI自主研究工具,让Agent通宵帮你优化LLM训练

    🔥 GitHub 热门 AI 开源项目

    autoresearch

    AI Agent 自主运行 LLM 训练研究 · Karpathy 出品

    🤖 AI Agent
    🧠 深度学习
    ⚡ 单GPU
    🔬 自动研究

    📌项目简介

    autoresearch 是 AI 大神 Andrej Karpathy(前 Tesla AI 总监、OpenAI 创始成员)开源的颠覆性项目——让 AI Agent 在单张 GPU 上自主运行深度学习实验,自动修改代码、训练模型、评估结果,通宵跑完 100+ 实验,早上起来收报告。这不是科幻,是现在就能用的真实工具。

    ⚙️安装要求和过程

    1

    环境要求

    单张 NVIDIA GPU(测试过 H100)、Python 3.10+、uv 包管理器

    2

    快速安装(4步搞定)

    # 1. 安装 uv(如果还没有)
    curl -LsSf https://astral.sh/uv/install.sh | sh
    
    # 2. 安装依赖
    uv sync
    
    # 3. 下载训练数据 + 训练 BPE 分词器(一次性,约2分钟)
    uv run prepare.py
    
    # 4. 手动跑一次训练实验(约5分钟)
    uv run train.py

    3

    启动 AI Agent 自主研究

    在仓库目录下启动 Claude Code / Codex 等 AI Agent(关闭所有权限确认),然后发送提示:

    Hi have a look at program.md and let's kick off a new experiment!
    let's do the setup first.

    4

    低配设备适配

    没有 H100?社区已有 macOSMLXWindows RTX 等 Fork,MacBook 也能跑!

    核心功能

    🤖

    AI Agent 自主研究

    Agent 自动修改 train.py,训练5分钟,检查 val_bpb 是否下降,保留或丢弃改动,不断迭代。你只需要睡前启动,早上收实验日志。

    ⏱️

    固定时间预算(公平对比)

    每次实验固定5分钟(wall clock),不管 Agent 怎么改模型架构、batch size,所有实验都可直接对比。约12次实验/小时,通宵可跑100+次。

    📁

    极简设计(只改一个文件)

    整个仓库只有3个核心文件:prepare.py(固定)、train.py(Agent 修改)、program.md(人类修改)。diff 清晰可审查,不会失控。

    🔌

    支持任意 AI Agent

    Claude Code、OpenAI Codex、Gemini CLI、OpenClaw……任何能读写文件的 AI Agent 都能用。program.md 本质上是一个超轻量级的”技能提示词”。

    🌍

    活跃社区 Fork(多平台支持)

    macOS(M系列芯片)、Windows(RTX显卡)、MLX框架均有社区 Fork,低配设备也能体验 AI 自主研究。

    🚀典型使用场景

    🌙 场景一:夜间自动实验

    下班前启动 Agent,让它通宵自主实验。第二天早上,你会收到一份完整的实验日志,记录每次改动、训练曲线和验证集效果。相当于白得一个不知疲倦的研究生。

    🔬 场景二:快速模型架构探索

    想尝试不同的注意力机制、优化器组合或模型深度?让 Agent 在固定时间预算内自动探索各种组合,快速找到最优配置,省去大量手工调参时间。

    📚 场景三:学习深度学习最佳实践

    即使是深度学习初学者,也可以阅读 Agent 的修改记录和实验日志,从中学习哪些改动有效、哪些无效,快速积累建模经验。

    💡推荐理由

    Karpathy 出品,必属精品。autoresearch 最震撼的地方在于它把”AI 做 AI 研究”从科幻变成了现实——而且代码极简,整个训练代码只有一个 train.py,清晰到可以作为学习材料。

    固定5分钟时间预算的设计非常巧妙:不管怎么改模型,每次实验成本相同,结果可直接对比。这让 Agent 的”研究”变得可解释、可复现,而不是黑盒魔法。

    ⚠️ 注意:目前官方版本需要 NVIDIA GPU,低配设备建议使用社区 Fork。但无论如何,这个项目代表的”AI 自主研究”方向,值得每个 AI 从业者关注和思考。

    📦下载地址

    🔔 关注我们,每周分享最新 AI 开源项目!

    GitHub 热门 AI 项目持续更新中…

  • 两个Datadog老兵不信大厂AI,拉了700万美元自己做编程工具

    AI编程工具这事,大厂和新贵打得不可开交。Cursor、GitHub Copilot、Claude Code、Codex——个个都说自己是最好的编程助手。但有一家刚冒头的小公司,角度有点不一样:它不跟你比谁的模型强,它说,你凭什么把你最敏感的代码交给OpenAI和Anthropic?

    大厂做AI,顺手把客户端了

    Niteshift的两位创始人Sajid Mehmood和Conor Branagan,在Datadog从早期一路干到百亿美元估值。他们亲历了当年亚马逊做AWS、顺手把一众电商客户逼到墙角的”零售末日”——现在他们说,AI圈正在上演同一出戏。

    Anthropic、OpenAI这些模型厂商,一边卖API给各行各业的公司,一边自己下场做垂直应用——法律、医疗、金融,哪个赛道热就往哪个扎。Mehmood说得很直白:”我们绝对会看到同样的动态,Anthropic去跟法律、医疗、金融行业竞争的时候,谁还敢把核心代码托付给它?”

    “在Datadog我们看得非常清楚。一大块多云业务就是从那些不想跑在亚马逊上的电商公司来的。现在AI领域正在发生一模一样的事情。”
    ——Sajid Mehmood,Niteshift CEO

    700万美元种子轮,Greylock领投

    Niteshift刚完成700万美元种子轮融资,领投方是Greylock的Jerry Chen。投资人阵容还包括Reid Hoffman、Datadog联合创始人Olivier Pomel和Alexis Lê-Quôc、Braintrust的Ankur Goyal、Reflection AI的Misha Laskin等重量级天使。

    Greylock的Chen说得很清楚:前沿实验室往应用层走的时候,就出现了一个机会——给客户另一条路:把智能体和底层基础设施解绑。Niteshift做的就是这个平台,让客户可以深度投入自己的开发工具链,而不被锁死在单个模型或单个智能体厂商上。

    不做下一个Claude Code,做模型之间的”路由器”

    Niteshift不是要取代Claude Code或Codex。它的定位是”AI编程云”——根据不同的项目需求,在GPT、Claude、开源模型之间做路由调度。收费方式也不是卖Token,而是像云厂商一样按分钟计费。

    Mehmood区分得很清楚:”别人都在卖劳动力替代型智能,我们卖的是给智能体用的软件,不是给人类用的——但我们仍然是在卖软件。”这个定位在AI编程工具里确实少见。

    Niteshift 两位创始人
    Niteshift 联合创始人 Sajid Mehmood(左)和 Conor Branagan(右)| 图源:TechCrunch

    竞争对手个个都是巨无霸

    这个赛道已经挤得水泄不通。Cursor如日中天(虽然可能很快被SpaceX收入囊中),Cognition刚刚以260亿美元估值融了10亿美元,Amazon Bedrock背靠亚马逊,OpenRouter刚刚以130亿美元估值完成1.13亿美元融资。Niteshift作为后来者,压力不小。

    Mehmood的回答是:团队深度。他和Branagan不是研究过这些问题——他们是亲身经历过。把Datadog从几个人的早期团队扩展到服务全球客户的百亿美金公司,他们亲身体会过大工程组织在面对新技术时的那些成长痛点。AI生成代码的测试、验证、自主运行,需要在真实生产环境里跑起来,而这正是他们做过的事情。


    模型独立这条路并不新鲜,Niteshift能跑出来吗?答案可能要等一阵子。但它提出的问题值得每个用AI编程工具的团队想想:你把代码交给谁了?

  • 【开源推荐】Goose:48.7K+ Stars!Linux Foundation 开源AI智能体,会动手的编程助手

    【开源推荐】Goose:48.7K+ Stars!Linux Foundation 开源AI智能体,会动手的编程助手

    Goose Logo

    Goose – 开源AI智能体 · Linux Foundation AAIF

    📦 项目简介

    Goose(鹅)是 Linux Foundation 下属 Agentic AI Foundation (AAIF) 推出的开源原生 AI 智能体,提供桌面应用、CLI 命令行、HTTP API 三种使用形态,支持接入 15+ 主流大模型,通过 MCP 协议可扩展 70+ 工具能力。核心引擎使用 Rust 构建,兼具高性能与内存安全。

    48.7K+
    GitHub Stars

    5.1K+
    Forks

    3
    使用形态

    70+
    MCP 扩展工具

    ⚙️ 安装要求和过程

    环境要求

    • 支持 macOS / Linux / Windows 三大平台
    • 桌面版:下载安装包直接安装,无需额外依赖
    • CLI 版:支持 Shell 一键脚本安装,或手动下载二进制文件
    • API 版:支持 Docker 部署,可嵌入任意应用
    • 网络要求:需能访问所配置的大模型 API 端点

    快速安装 · CLI 版(推荐开发者)

    # macOS / Linux 一键安装
    curl -fsSL https://github.com/aaif-goose/goose/releases/download/stable/download_cli.sh | bash
    
    # 验证安装
    goose --version
    
    # 交互式配置大模型
    goose configure
    
    # 启动对话
    goose start
    
    # 查看帮助
    goose --help

    桌面版安装

    # 1. 访问官网下载页面
    https://goose-docs.ai/docs/getting-started/installation
    
    # 2. 选择对应平台(macOS / Windows / Linux)
    # 3. 下载安装包,按引导完成安装
    # 4. 首次启动会引导配置大模型服务商和 MCP 扩展

    🚀 核心功能

    🖥️ 三合一使用形态

    同时提供桌面应用(GUI图形界面,适合日常使用)、CLI 命令行(适合开发者终端集成)、HTTP API(适合嵌入应用或自动化流程)三种方式,覆盖从个人到企业的全场景需求。

    🤖 15+ 大模型服务商支持

    兼容 Anthropic (Claude)、OpenAI (GPT)、Google (Gemini)、Ollama (本地模型)、OpenRouter、Azure、AWS Bedrock、Groq 等 15+ 主流大模型平台,灵活切换,按需选择,API Key 或已有订阅均可接入。

    🔌 MCP 协议扩展(70+ 工具)

    基于 Model Context Protocol (MCP) 开放标准,可接入 70+ 扩展工具,包括文件系统操作、数据库查询、Web 搜索、Git 操作、Slack/飞书消息等,让智能体能力无限延伸。

    🏗️ Rust 高性能核心

    核心引擎使用 Rust 编写(代码占比 64.3%),内存安全、运行高效,支持长时间稳定运行。前端界面使用 TypeScript(29.2%),兼顾性能与开发效率。Apache 2.0 开源协议。

    📦 自定义分发

    支持基于 Goose 构建自定义分发版本,可预配置大模型服务商、MCP 扩展、品牌信息,适合企业内部分发或构建专属 AI 助手产品。

    💡 典型使用场景

    场景一:AI 辅助全栈开发

    在 CLI 模式下,Goose 可以直接参与代码编写、调试、测试、依赖管理全流程。例如对它说”帮我给这个项目加上 Redis 缓存,需要修改哪些文件,依赖怎么装”,它会读代码、写代码、改配置、告诉你步骤,一条龙搞定。相比 GitHub Copilot 只做代码补全,Goose 可以自主执行命令、创建文件、运行测试,是一个真正能”动手”的编程助手。

    场景二:研究 & 自动化工作流

    配置好 Web 搜索和文档读取的 MCP 工具后,Goose 可以自动完成资料检索、信息汇总、方案对比等研究任务。例如:”帮我调研 Rust 中所有成熟的向量数据库 crate,对比性能和易用性,给出推荐”,Goose 会自动搜索、阅读文档、整理对比表格,最后输出一份完整报告。

    场景三:企业知识库问答助手

    通过自定义分发功能,企业可以基于 Goose 构建内部 AI 助手,接入私有知识库(Confluence、Notion、内部 Wiki、向量数据库等),让员工用自然语言查询公司规范、技术文档、HR 政策等,且所有数据留在企业内部,满足合规要求。

    ✨ 推荐理由

    Goose 最打动我的一点是它的「真正可执行」能力——不是只给你建议,而是真的能动手帮你做。装好之后,我跟它说”帮我给这个项目加上 Redis 缓存”,它真的会读代码、写代码、改配置、告诉我还需要装什么依赖,一条龙搞定。

    另一个亮点是不绑定任何一家大模型厂商。你可以今天用 Claude,明天换 Gemini,后天试 Ollama 本地模型,配置随时切换,数据都在自己手里。加上 MCP 协议的支持,扩展能力几乎是无限的。

    作为 Linux Foundation 旗下的开源项目,Goose 的代码完全透明,社区活跃,迭代迅速。如果你在找一个能真正帮你干活的 AI 助手,而不是只会聊天的玩具,Goose 绝对值得一试。

    技术栈:Rust (64.3%) · TypeScript (29.2%) · JavaScript (1.6%) |
    协议:Apache 2.0 |
    组织:Linux Foundation AAIF |
    今日 Trending:GitHub 日榜
  • 【开源推荐】OpenHands:76.3K+ Stars!AI驱动的软件开发平台,让AI帮你写代码

    【开源推荐】OpenHands:76.3K+ Stars!AI驱动的软件开发平台,让AI帮你写代码

    🙌 OpenHands:AI驱动的软件开发平台

    项目地址GitHub – OpenHands/OpenHands | Stars:76.3K+ | 官网openhands.dev

    📌 项目简介

    OpenHands 是一个开源的 AI 驱动软件开发平台,提供三种使用方式:Software Agent SDK(可组合的 Python 库)、CLI(命令行工具,类似 Claude Code)和 Local GUI(本地图形界面,类似 Devin)。它让 AI Agent 能够理解代码仓库、执行命令、浏览网页,真正实现 AI 辅助软件开发。

    🔧 安装要求和过程

    环境要求

    • 操作系统:macOS、Linux 或 Windows(需 WSL2)
    • Python:3.11 或更高版本
    • Docker:可选,用于沙箱化运行(推荐)
    • LLM API Key:需要配置 OpenAI / Anthropic / 其他 LLM 提供商的 API Key

    快速安装步骤

    # 方式一:使用 pip 安装(推荐)
    pip install openhands-ai
    
    # 方式二:使用 Docker 运行
    docker pull openhands/openhands
    docker run -it --rm openhands/openhands
    
    # 方式三:从源码安装
    git clone https://github.com/OpenHands/OpenHands.git
    cd OpenHands
    pip install -e ".[dev]"
    
    # 配置 LLM(设置环境变量)
    export OPENAI_API_KEY="your-api-key-here"
    # 或者如果使用 Anthropic
    export ANTHROPIC_API_KEY="your-anthropic-key-here"

    ✨ 核心功能

    1. 🛠️ Software Agent SDK

    可组合的 Python 库,包含所有 Agent 技术。可以在代码中定义 Agent,然后在本地运行,或扩展到云端运行数千个 Agent。适合需要深度定制的开发者。

    2. 💻 CLI 命令行工具

    最快捷的使用方式,体验类似于 Claude Code 或 Codex。支持连接 Claude、GPT 或任何其他 LLM,通过命令行与 AI Agent 交互,完成代码编写、调试、重构等任务。

    3. 🖥️ Local GUI 图形界面

    本地运行的图形界面,包含 REST API 和单页 React 应用。使用体验类似于 Devin 或 Jules,可以在浏览器中可视化地与 AI Agent 交互,查看代码变更和执行过程。

    4. 🔒 沙箱安全执行

    支持 Docker 沙箱运行,确保 AI 执行的命令不会破坏本地环境。同时支持自定义沙箱配置,满足企业级安全需求。

    5. 🌐 多 LLM 支持

    不仅支持 OpenAI GPT 和 Anthropic Claude,还支持本地 LLM(通过 Ollama 等工具),以及任何其他兼容 OpenAI API 的 LLM 服务。

    🚀 典型使用场景

    场景一:🐛 Bug 修复助手

    将 OpenHands 接入你的项目,当 CI/CD pipeline 报错或有 issue 报告 bug 时,OpenHands 可以自动理解代码上下文,定位问题,并生成修复代码。开发者只需 review 和合并即可。

    场景二:📝 代码重构和文档生成

    让 OpenHands 帮你重构遗留代码、添加类型注解、生成 API 文档。只需在 CLI 或 GUI 中描述需求,OpenHands 会自动编辑多个文件,保持代码风格一致。

    场景三:🏢 企业级代码自动化

    通过 Software Agent SDK,企业可以构建自定义的 AI 开发工作流。例如:自动 code review、自动生成单元测试、自动更新依赖版本等,大幅提升团队开发效率。

    💡 推荐理由

    作为一名开发者,我试用 OpenHands 后有以下感受:

    • ✅ 降低 AI 编程门槛:以前要用 AI 辅助编程,需要自己写复杂的 prompt 和工具调用逻辑。OpenHands 把这些封装好了,开箱即用。
    • ✅ 三种使用方式,灵活选择:想要快速体验就用 CLI;想要可视化就用 GUI;想要深度定制就用 SDK。这种分层设计非常贴心。
    • ✅ 活跃的开源社区:76K+ Stars,近 10K Forks,说明社区非常活跃。文档完善,Slack 社区响应及时,遇到问题容易找到解决方案。
    • ⚠️ 需要注意:AI 生成的代码仍需人工 review,不能完全依赖。另外,使用云端 LLM API 会产生费用,建议先用量化模型或本地 LLM 测试。

    总结:如果你对 AI 辅助编程感兴趣,OpenHands 是一个非常好的起点。它比自己从零搭建 AI coding agent 要简单太多,而且开源免费,值得一试!

    📥 下载地址


    📌 本文由自动化任务采集,定期分享优质开源 AI 项目,欢迎关注!

  • Gemini CLI:101K+ Stars!Google官方开源AI终端助手

    Gemini CLI:101K+ Stars!Google官方开源AI终端助手

    📌 项目简介

    Gemini CLI 是 Google 官方推出的开源 AI 终端助手,直接将 Gemini 大模型能力集成到开发者命令行环境,让你可以像聊天一样操作代码库、自动化任务、生成应用。(101K+ Stars,TypeScript 编写,Apache 2.0 开源协议)

    Gemini CLI 截图

    Gemini CLI 终端交互界面

    💻 安装要求和过程

    环境要求

    • Node.js:建议 Node 18+ (推荐 Node 20+)
    • 包管理器:支持 npm、npx、Homebrew、MacPorts、Anaconda
    • 网络:需要访问 Google Gemini API(需 Google 账号)

    快速安装(3种方式)

    # 方式1:npx 直接使用(无需安装)
    npx @google/gemini-cli
    
    # 方式2:npm 全局安装(推荐)
    npm install -g @google/gemini-cli
    
    # 方式3:Homebrew(macOS/Linux)
    brew install gemini-cli
    

    版本选择

    版本渠道 发布频率 安装命令
    Stable(稳定版) 每周二 npm install -g @google/gemini-cli@latest
    Preview(预览版) 每周二 npm install -g @google/gemini-cli@preview
    Nightly(每夜版) 每日 npm install -g @google/gemini-cli@nightly

    ✨ 核心功能

    1. 📖 代码理解与生成:支持查询、编辑大型代码库;支持多模态能力,可从 PDF、图片、草图生成新应用;支持自然语言调试问题、排查故障。
    2. 🤖 自动化与集成:自动化运营任务(查询 PR、处理复杂 rebase);支持 MCP(模型上下文协议)服务器扩展能力;支持非交互式脚本运行,适配工作流自动化。
    3. 🔍 实时信息获取:内置 Google Search 接地能力,可获取实时信息,让 AI 回答更准确。
    4. 🐙 GitHub 集成:自带 GitHub Action,支持 PR 自动代码审查、Issue 自动分类标记;在 Issue/PR 中 @gemini-cli 获取即时帮助。
    5. 🛠️ 内置工具集:文件系统操作、Shell 命令执行、网页抓取与搜索、Google Search 接地等开箱即用能力。

    🎯 典型使用场景

    场景1:日常开发辅助

    快速理解现有代码库、生成新功能代码、调试问题。例如:

    # 启动 Gemini CLI
    gemini
    
    # 在交互界面中:
    > 帮我分析这个项目的架构
    > 给这个函数添加错误处理
    > 解释一下这段代码的逻辑
    

    场景2:GitHub 自动化工作流

    在 GitHub PR 或 Issue 中直接 @gemini-cli,让它帮你:

    • 自动审查代码,给出改进建议
    • 分类和标记 Issue
    • 生成 PR 描述
    • 回答代码相关问题

    场景3:从零启动新项目

    使用多模态能力,从草图或需求描述快速生成应用:

    # 上传草图,让 Gemini CLI 生成应用
    > 根据这个UI草图,生成一个 React 组件
    > 创建一个 Discord 机器人项目
    

    🌟 推荐理由

    💡 个人使用心得

    • 官方背书,值得信赖:Google 官方出品,与 Gemini 模型深度集成,更新及时,文档完善。
    • 终端原生,开发友好:直接在命令行中使用,无需切换窗口,完美融入开发者工作流。
    • 多模态能力惊艳:支持从图片、PDF、草图生成代码,这是很多其他 CLI 工具不具备的能力。
    • GitHub 集成是杀手级功能:在 PR/Issue 中直接调用,让 AI 成为团队协作的一份子。
    • 开源且免费:Apache 2.0 协议,代码完全开放,可自由定制和扩展。

    ⚠️ 注意事项:需要 Google 账号和访问 Gemini API,国内用户可能需要科学上网。

    📥 下载地址


    🦞 由 OpenClaw 自动整理发布 | 数据来源:GitHub Trending

  • 2026年AI编程助手三强对决:Cursor、Claude Code、Copilot谁更适合你

    AI编程工具这条路,走到2026年,基本成了三足鼎立的格局。Cursor、Claude Code、GitHub Copilot,各有各的打法,也各有各的受众。选哪个,说到底取决于你平时怎么写代码。

    Second Talent的统计说,82%的开发者每周都会用AI编程助手。GitHub Copilot的用户每周完成的项目数增加了126%。数字摆在这里,AI辅助编程已经不是”要不要学”的问题,而是”用哪个”的问题。

    三个工具,三种思路

    Cursor是个AI原生的IDE,底层是VS Code的分叉版。如果你已经在用VS Code,迁移过去几乎零成本,插件大部分能复用。它的特点是补全能力强,还能同时跑8个Agent并行处理任务,遇到50个文件以上的大型重构,效率提升很明显。

    Claude Code走的是另一条路——终端Agent。没有图形界面,直接在命令行里干活。适合远程开发、SSH环境,或者就是喜欢终端的开发者。它的SWE-bench Verified测试成绩是80.8%,意思是它能独立解决80%以上的真实GitHub issue。100万token的上下文窗口,可以把整个项目加载进来,连依赖关系都记得住。

    GitHub Copilot的定位最”中庸”——它是个跨编辑器插件,VS Code、JetBrains、Vim全都支持。入门价$10/月,是三家里最低的。功能偏向基础补全和简单对话,Agent能力相对弱一些,但日常开发够用了。

    59%的开发者同时使用3个以上的AI编程工具。单一工具覆盖不了所有场景,组合使用才是常态。

    定价:入门价差不多,高级档拉不开差距

    三家的入门价集中在$10-20区间。Copilot $10/月是最低门槛,还有免费层每月2000次补全额度,够用一阵子了。Cursor和Claude Code的入门价都是$20/月。

    高级方案就有意思了——Cursor Ultra和Claude Code Max 20x都是$200/月。这个价位面向的是重度用户:每天几百次调用、多Agent并行、超大上下文需求。普通开发者其实不太需要升级到这个档位。

    怎么选才不浪费钱

    如果你用VS Code且不想换习惯,Cursor是首选。$20/月换来的是零迁移成本和比较强的Agent能力。

    如果你常在远程环境开发,或者就是喜欢终端,Claude Code更合适。$20/月Pro版能处理复杂重构和跨模块改动,这是它的强项。

    如果预算紧张,或者主要用JetBrains系列(IntelliJ、PyCharm之类),那只有Copilot支持,没得选。$10/月入门版先试用一个月再说。

    最划算的组合其实是Claude Code Pro($20/月)+ Copilot($10/月)= $30/月。前者处理复杂任务,后者负责日常补全,分工明确,效率也高。

    话说回来,工具只是工具。真正决定代码质量的,还是写代码的人。AI能帮你省时间,但替你做决定的,还是你自己。


  • OpenAI对ChatGPT动大手术:从聊天机器人进化为超级应用

    OpenAI要对ChatGPT动大手术了。这次不是加个功能或者修个bug,而是把整个产品重新定义一遍。

    消息最先来自《金融时报》的报道,随后TechCrunch在6月7日跟进了这件事。OpenAI计划在未来几周内推出改版后的ChatGPT,定位是一个”超级应用”——里面会集成编程工具、AI智能体,以及一个真正能帮你搞定生活和工作各种事情的个人AI助手。

    OpenAI核心产品与平台负责人Thibault Sottiaux说,他们在做的产品目标是”拥有属于用户个人的AI代理,能够在个人生活和工作全场景中为用户提供帮助”。

    聊天功能已经过时了

    OpenAI内部已经有人公开说”Chat is dead”——聊天功能已经过时。这话听起来有点极端,但仔细想想,确实指向一个真问题:跟AI一问一答的聊天模式,天花板已经看得见摸得着了。

    改版后的ChatGPT会往两个方向走。一个是编程工具,把Codex更深地嵌进去,让ChatGPT不只是能聊代码,而是能真正帮你写、改、跑、调试。另一个是AI智能体,让ChatGPT能主动帮你做事,而不只是等你来问。

    这个打法明显对着Anthropic去的。Claude Code过去几个月在编程场景里抢了不少用户,OpenAI不可能没感觉。把编程工具直接集成到ChatGPT里头,等于是把流量入口和产品能力绑在一起,不让用户跑到别的地方去。

    2024年就在说,2026年才动真格

    OpenAI的”超级应用”规划其实早就有风声了,2024年就有报道。但那时候公司还在同时推好几条线——Sora视频生成器、DALL-E更新、各种独立功能——资源是分散的。

    今年3月《华尔街日报》的报道说,OpenAI内部做了一个很明确的选择:把那些”支线项目”的资源收回来,集中到核心战略上。Sora还在,但不再是优先级最高的那批。公司要上市,要讲故事给投资人听,这个”超级应用”的故事显然比”我们同时做好几个东西”要好讲得多。


    商业化算盘

    把ChatGPT做成超级应用,商业逻辑是很清楚的。现在ChatGPT有几亿免费用户,但真正付费的比例不高。如果你能让用户觉得ChatGPT不只是个聊天工具,而是工作和生活里离不开的操作系统,那付费转化率自然会往上走。

    编程工具是其中最值钱的一块。Cursor、Claude Code、GitHub Copilot都在抢这个市场,而且客单价不低。如果ChatGPT能把这部分用户吸进来,ARPU(每用户平均收入)会有明显的拉动。

    当然,这件事做起来没那么容易。做一个能真正帮用户”搞定全场景”的AI智能体,技术难度不低,产品复杂度也会大幅上升。ChatGPT现在相对来说还是一个比较简单的对话界面,变成超级应用之后,用户会不会觉得太复杂、太重,这是OpenAI需要想清楚的。

    几周之内就会看到改版后的样子。到时候是真颠覆还是只是加了两个新按钮,答案自然会出来。

  • 阿里发了款新模型,价格只有Claude的一半,性能却差不多

    阿里发了款新模型,价格只有Claude的一半,性能却差不多

    5月20日的杭州阿里云峰会上,高级副总裁刘伟光说了一句挺有意思的话:”我们正在打造中国AI工厂。”台下的人可能还没意识到,这句话背后的分量——阿里不再满足于做开源模型的社区宠儿,它要直接和Anthropic、OpenAI在企业级市场正面刚。

    “我们在各基准测试中排名靠前,超过中国所有其他AI模型。”
    ——阿里云首席AI架构师 周静仁

    当天正式发布的Qwen3.7 Max,是阿里第一款闭源旗舰模型。这个转向值得玩味:过去两年,阿里靠开源的Qwen 3.5、3.6系列占据了大量开发者生态,现在它想把这套生态转化成真金白银的企业收入。


    数字摆出来,确实有点东西

    先说硬指标。Qwen3.7 Max的上下文窗口达到100万tokens,比上一代Qwen 3.6的25.6万tokens提升了近40倍。这意味着什么?你可以把一整本技术手册、一个中等规模代码库,一次性塞进模型的”工作记忆”里,不用再做切片和向量检索。

    人工分析智能指数(AA Intelligence Index v4.0)给Qwen3.7 Max打了56.6分,综合排名第5,是发布时排名最高的中国模型。排它前面的是GPT-5.5(60.2分)、Claude Opus 4.7(57.3分),分差在误差范围内。

    换成大白话:阿里这套模型,智能水平和Claude Opus 4.7差不多,但定价只有后者的一半。

    评测维度 Qwen3.7 Max Claude Opus 4.7 GPT-5.5
    AA智能指数 56.6(第5) 57.3(第4) 60.2(第1)
    Terminal-Bench 2.0 69.7 65.4(4.6基线) 未披露
    SWE-Bench Pro 60.6 57.3(4.6基线) 未披露
    输入定价(美元/百万tokens) 2.5 5.0 5.0
    输出定价(美元/百万tokens) 7.5 25.0 30.0

    定价是亮点,但实际成本有点猫腻

    标题说”价格只有Claude的一半”,指的是官方标价。但用起来是不是真的只要一半,这里有个坑。

    Digital Applied的评测发现,Qwen3.7 Max的输出冗余度极高。在AA智能指数评测中,它一共生成了9700万输出tokens,而对比组的中位数仅为2400万tokens——是中位数的4倍。换句话说,同样回答一个问题,Qwen3.7 Max可能会输出4倍长度的”废话”。

    按7.5美元/百万输出tokens计算,同等任务下Qwen3.7 Max的实际输出成本是中等冗余度模型的2.5倍。所以标价和Claude Opus 4.7的实际差距,远没有一半那么大。

    不过,阿里给了一个挺实在的折扣:缓存输入0.25美元/百万tokens(90%折扣)。对于智能体任务(重复调用相同系统提示词),这个折扣能把成本压得很低。


    智能体编程是真本事

    Qwen3.7 Max的核心卖点是”智能体(Agent)能力”。阿里在发布会上演示了一个35小时自主运行的编程任务:模型连续运行35小时,完成1158次工具调用、432次内核评估、5次架构重设计,最终把Triton内核的几何平均速度提升了10倍。

    这个演示还没被独立复现,但基准测试成绩是实打实的。Terminal-Bench 2.0(测试多步骤智能体工作流)得分69.7,SWE-Bench Pro(真实软件工程任务)得分60.6,MCP-Atlas(模型上下文协议适配)得分76.4,均领先对比组。

    更重要的是兼容性。Qwen3.7 Max支持OpenAI兼容和Anthropic兼容两种API规范,可以适配Claude Code、OpenClaw、Qwen Code、Hermes Agent等多款智能体框架。已经用上Claude Code的团队,无需重写框架就能切换调用。


    两个地方要注意

    第一个是幻觉率。Qwen3.7 Max的AA-Omniscience幻觉率为22.9%,是同期前沿模型中最低的,较上一代Qwen 3.6的44.2%大幅下降。但这个提升部分来自”弃答策略”:模型答题尝试率从67.3%下降至48.0%,超过一半的问题它会选择”不知道”而非给出答案。

    这意味着什么?如果你做的是智能体编程,答错比弃答危害更大,Qwen3.7 Max反而有优势。但如果你做的是RAG管道、法律或医疗问答这些需要高召回率的场景,它的弃答率会让你头疼,这类场景建议用DeepSeek V4 Pro或Claude Opus 4.7。

    第二个是开源权重。阿里已公布计划推出开源的Qwen 3.7 Plus轻量版,但截至5月25日,HuggingFace的Qwen组织下仅公布了Qwen 3.6及更早版本权重,暂未放出Qwen 3.7系列权重。需要自部署的团队,目前还得用Qwen 3.6系列或者DeepSeek V4 Pro。


    战略意图比模型本身更值得琢磨

    把Qwen3.7 Max放在更大的格局里看,这事的意义不止是一款新模型发布。

    过去两年,中美AI模型之间的差距,外界普遍认为是”一个迭代周期”——大概6到9个月。Qwen3.7 Max的AA智能指数和Claude Opus 4.7只差0.7分,基本在误差范围内。这意味着,中国前沿AI已经不再落后西方实验室一个迭代周期,差距正在收窄到同一代内的不同批次。

    阿里的全栈布局也在同步推进。模型(Qwen3.7 Max)+ 自研芯片(Zhenwu M890 AI加速器)+ 智能体框架,这套组合在地缘政治压力下有特殊的战略价值——即便买不到英伟达最新芯片,阿里也有一套自己可控的技术栈。

    对于企业用户来说,Qwen3.7 Max目前是通过阿里云模型工作室、OpenRouter、Together AI、Qubrid AI四个渠道访问。建议针对自身任务子集做基准测试,结合实际冗余度调整后的成本做路由决策,而不是只看官方定价。

  • AI的账单到期了:科技公司开始为Token烧的钱买单

    Uber把2026全年的AI编程预算,4月份就烧完了。这事听起来像段子,但它是真的。

    TechCrunch最近发了一篇深度报道,讲整个行业突然意识到一件事:AI不是免费的基础设施,它贵得离谱,而且账单来得比任何人准备的都要快。

    AI公司们在2025年初疯狂使用AI,所有人都开着”放开用”的订阅模式,没人真正盯着花了多少钱。等到年底一算账,才发现Token消耗已经完全失控。

    从”能不能用”到”花了多少钱”

    OpenAI的企业业务负责人Alexander Embiricos说,半年前他和客户聊天,对方问的都是”这个模型能做什么?够不够好?”现在完全不一样了,所有人都在问:”我们花了多少钱?你们有可见性吗?有审计能力吗?有Token管控吗?你们模型的效率到底怎么样?”

    微软几个月前给开发人员开通了Claude Code的许可,结果没过多久就收回去了。Priceline的一个员工告诉TechCrunch,他们续签Cursor合同时,价格直接翻了4到5倍。

    这还不是最夸张的。有一家公司忘了给员工设置使用限额,结果一个月下来收到了5亿美元的Claude账单。

    Token经济学浮出水面

    Linux基金会本周宣布了一个新计划,叫Tokenomics Foundation,目的是给AI Token的花费建立一套类似FinOps之于云计算的成本纪律标准。

    FinOps Foundation的负责人J.R. Storment说,今年4、5月份开始,不断有公司跑来说:”我的天,我们2026年的Token预算已经超了3倍,但现在才4月。”

    Priceline的IT财务总监Chris Reed说了一句话很形象:”这就像可卡因流行病,他们让你先试试,把你勾住,然后你就被绑住了。”

    AI成本压力
    企业开始认真审视AI的账单了(图源:Getty Images)

    新市场正在形成

    这波焦虑催生了一个全新的市场。初创公司、老牌厂商,都在争相推出帮助企业管理AI支出的工具。

    • Pay-i:专门追踪、测量和优化生成式AI投资的成本与性能
    • Paid:让开发者按实际价值而不是订阅费来追踪成本和向用户收费
    • Jellyfish、Waydev、Faros AI:提供AI代理监控,证明开发工具的投资回报率
    • Ramp、Datadog、New Relic:在传统产品线上加装AI成本管理和可观测性功能

    但问题也很明显。所有这些工具都在没有通用语言或共享定义的情况下各自为战。没有人真正知道一个Token到底该花多少钱、它产出了什么、怎么跨厂商比较支出。这正是Tokenomics Foundation想要解决的问题。


    Goldman Sachs预测,到2030年全球Token使用量将增长24倍。那些已经超预算的公司现在就需要解决方案,但基金会的第一份交付成果还要几个月才能出来。

    Faros AI的CEO Vitaly Gordon说了一句很形象的话:”也许我们造出了蒸汽机,但还没有搞清楚装配线怎么搭。”

    这篇文章折射出一个很真实的现状:AI的”免费午餐”时代正在结束,接下来是所有人都必须学会算账的时代。

  • OpenAI Codex周活冲到500万,这次不打算只给程序员用了

    OpenAI本周公布了一个数字:Codex每周活跃用户已经到了500万。这个数字比大多数人预期的要快,而这个工具的定位,也已经不再只是程序员的专属了。

    从编程工具到通用生产力工具

    Codex刚出来的时候,大家都觉得这就是个AI写代码的东西,程序员用用就算了。但OpenAI现在的说法很明确:Codex要覆盖的是所有跟信息和知识打交道的人,而不只是写代码的人。

    这个定位转变其实挺聪明的。写代码的人就那么多,但每天要处理文档、整理数据、搭建内部工具的知识工作者,数量是程序员的好几倍。Codex如果能让他们不用学编程也能”指挥”AI干活,这个市场就大得多了。

    Codex现在的能力已经超出ChatGPT的范畴——它可以构建可交互的托管网站和应用,还能根据新数据自动更新。

    新功能到底有什么用

    这次跟着500万用户数字一起公布的,还有几个实在的功能更新。最值得关注的是新的预览版本,企业客户现在已经可以用上了。

    • 支持构建可交互的托管网站和应用——不只是生成代码,而是直接跑起来
    • 支持用新数据持续更新生成的内容,不用每次都重新生成
    • 新插件生态上线,第三方工具可以接入Codex的工作流
    • 企业版支持更细粒度的权限和数据隔离控制

    有意思的是这次发布的时机。正好微软在办Build 2026大会,微软和OpenAI这种”亲密友敌”的关系,在AI圈已经不是秘密了。两边都在推自己的AI编程工具,但底层又深度合作,这种竞合关系估计还会持续很久。

    500万周活意味着什么

    500万周活,放在消费级AI产品里不算特别夸张,但Codex的用户价值密度很高。用Codex的人,通常是真的在用它干活,而不是随便玩玩。这个留存率和付费转化,应该比ChatGPT的普通用户要好不少。

    OpenAI这次强调”不只是给程序员用的”,某种程度上也是在为Codex的商业化铺路。程序员市场天花板太低,只有打进更广的知识工作者市场,这个产品才撑得起OpenAI的估值预期。

    OpenAI Codex generated document
    Codex为虚构的Blossom Widgets企业峰会生成的活动文档(图片来源:The Verge)