标签： AI编程

【开源推荐】autoresearch：86K+ Stars！Karpathy开源AI自主研究工具，让Agent通宵帮你优化LLM训练
🔥 GitHub 热门 AI 开源项目

autoresearch

AI Agent 自主运行 LLM 训练研究 · Karpathy 出品

🤖 AI Agent
🧠 深度学习
⚡ 单GPU
🔬 自动研究

📌项目简介

autoresearch 是 AI 大神 Andrej Karpathy（前 Tesla AI 总监、OpenAI 创始成员）开源的颠覆性项目——让 AI Agent 在单张 GPU 上自主运行深度学习实验，自动修改代码、训练模型、评估结果，通宵跑完 100+ 实验，早上起来收报告。这不是科幻，是现在就能用的真实工具。

⚙️安装要求和过程

1

环境要求

单张 NVIDIA GPU（测试过 H100）、Python 3.10+、uv 包管理器
2

快速安装（4步搞定）

# 1. 安装 uv（如果还没有） curl -LsSf https://astral.sh/uv/install.sh | sh # 2. 安装依赖 uv sync # 3. 下载训练数据 + 训练 BPE 分词器（一次性，约2分钟） uv run prepare.py # 4. 手动跑一次训练实验（约5分钟） uv run train.py
3

启动 AI Agent 自主研究

在仓库目录下启动 Claude Code / Codex 等 AI Agent（关闭所有权限确认），然后发送提示：

Hi have a look at program.md and let's kick off a new experiment! let's do the setup first.
4

低配设备适配

没有 H100？社区已有 macOS、MLX、Windows RTX 等 Fork，MacBook 也能跑！

⭐核心功能

🤖

AI Agent 自主研究

Agent 自动修改 train.py，训练5分钟，检查 val_bpb 是否下降，保留或丢弃改动，不断迭代。你只需要睡前启动，早上收实验日志。

⏱️

固定时间预算（公平对比）

每次实验固定5分钟（wall clock），不管 Agent 怎么改模型架构、batch size，所有实验都可直接对比。约12次实验/小时，通宵可跑100+次。

📁

极简设计（只改一个文件）

整个仓库只有3个核心文件：prepare.py（固定）、train.py（Agent 修改）、program.md（人类修改）。diff 清晰可审查，不会失控。

🔌

支持任意 AI Agent

Claude Code、OpenAI Codex、Gemini CLI、OpenClaw……任何能读写文件的 AI Agent 都能用。program.md 本质上是一个超轻量级的”技能提示词”。

🌍

活跃社区 Fork（多平台支持）

macOS（M系列芯片）、Windows（RTX显卡）、MLX框架均有社区 Fork，低配设备也能体验 AI 自主研究。

🚀典型使用场景

🌙 场景一：夜间自动实验

下班前启动 Agent，让它通宵自主实验。第二天早上，你会收到一份完整的实验日志，记录每次改动、训练曲线和验证集效果。相当于白得一个不知疲倦的研究生。

🔬 场景二：快速模型架构探索

想尝试不同的注意力机制、优化器组合或模型深度？让 Agent 在固定时间预算内自动探索各种组合，快速找到最优配置，省去大量手工调参时间。

📚 场景三：学习深度学习最佳实践

即使是深度学习初学者，也可以阅读 Agent 的修改记录和实验日志，从中学习哪些改动有效、哪些无效，快速积累建模经验。

💡推荐理由

Karpathy 出品，必属精品。autoresearch 最震撼的地方在于它把”AI 做 AI 研究”从科幻变成了现实——而且代码极简，整个训练代码只有一个 train.py，清晰到可以作为学习材料。

固定5分钟时间预算的设计非常巧妙：不管怎么改模型，每次实验成本相同，结果可直接对比。这让 Agent 的”研究”变得可解释、可复现，而不是黑盒魔法。

⚠️ 注意：目前官方版本需要 NVIDIA GPU，低配设备建议使用社区 Fork。但无论如何，这个项目代表的”AI 自主研究”方向，值得每个 AI 从业者关注和思考。

📦下载地址

GitHub 仓库：https://github.com/karpathy/autoresearch

社区 Fork（macOS）：https://github.com/miolini/autoresearch-macos

社区 Fork（Windows RTX）：https://github.com/jsegov/autoresearch-win-rtx

Karpathy 推文介绍：https://x.com/karpathy/status/2029701092347630069

🔔 关注我们，每周分享最新 AI 开源项目！

GitHub 热门 AI 项目持续更新中…
2026年6月12日
两个Datadog老兵不信大厂AI，拉了700万美元自己做编程工具

AI编程工具这事，大厂和新贵打得不可开交。Cursor、GitHub Copilot、Claude Code、Codex——个个都说自己是最好的编程助手。但有一家刚冒头的小公司，角度有点不一样：它不跟你比谁的模型强，它说，你凭什么把你最敏感的代码交给OpenAI和Anthropic？

大厂做AI，顺手把客户端了

Niteshift的两位创始人Sajid Mehmood和Conor Branagan，在Datadog从早期一路干到百亿美元估值。他们亲历了当年亚马逊做AWS、顺手把一众电商客户逼到墙角的”零售末日”——现在他们说，AI圈正在上演同一出戏。

Anthropic、OpenAI这些模型厂商，一边卖API给各行各业的公司，一边自己下场做垂直应用——法律、医疗、金融，哪个赛道热就往哪个扎。Mehmood说得很直白：”我们绝对会看到同样的动态，Anthropic去跟法律、医疗、金融行业竞争的时候，谁还敢把核心代码托付给它？”

“在Datadog我们看得非常清楚。一大块多云业务就是从那些不想跑在亚马逊上的电商公司来的。现在AI领域正在发生一模一样的事情。”
——Sajid Mehmood，Niteshift CEO

700万美元种子轮，Greylock领投

Niteshift刚完成700万美元种子轮融资，领投方是Greylock的Jerry Chen。投资人阵容还包括Reid Hoffman、Datadog联合创始人Olivier Pomel和Alexis Lê-Quôc、Braintrust的Ankur Goyal、Reflection AI的Misha Laskin等重量级天使。

Greylock的Chen说得很清楚：前沿实验室往应用层走的时候，就出现了一个机会——给客户另一条路：把智能体和底层基础设施解绑。Niteshift做的就是这个平台，让客户可以深度投入自己的开发工具链，而不被锁死在单个模型或单个智能体厂商上。

不做下一个Claude Code，做模型之间的”路由器”

Niteshift不是要取代Claude Code或Codex。它的定位是”AI编程云”——根据不同的项目需求，在GPT、Claude、开源模型之间做路由调度。收费方式也不是卖Token，而是像云厂商一样按分钟计费。

Mehmood区分得很清楚：”别人都在卖劳动力替代型智能，我们卖的是给智能体用的软件，不是给人类用的——但我们仍然是在卖软件。”这个定位在AI编程工具里确实少见。

Niteshift 联合创始人 Sajid Mehmood（左）和 Conor Branagan（右）| 图源：TechCrunch

竞争对手个个都是巨无霸

这个赛道已经挤得水泄不通。Cursor如日中天（虽然可能很快被SpaceX收入囊中），Cognition刚刚以260亿美元估值融了10亿美元，Amazon Bedrock背靠亚马逊，OpenRouter刚刚以130亿美元估值完成1.13亿美元融资。Niteshift作为后来者，压力不小。

Mehmood的回答是：团队深度。他和Branagan不是研究过这些问题——他们是亲身经历过。把Datadog从几个人的早期团队扩展到服务全球客户的百亿美金公司，他们亲身体会过大工程组织在面对新技术时的那些成长痛点。AI生成代码的测试、验证、自主运行，需要在真实生产环境里跑起来，而这正是他们做过的事情。

模型独立这条路并不新鲜，Niteshift能跑出来吗？答案可能要等一阵子。但它提出的问题值得每个用AI编程工具的团队想想：你把代码交给谁了？

📎 原文来源：Datadog veterans launch AI coding startup Niteshift on a bet against big AI lock-in — TechCrunch

2026年6月11日
【开源推荐】Goose：48.7K+ Stars！Linux Foundation 开源AI智能体，会动手的编程助手
Goose – 开源AI智能体 · Linux Foundation AAIF

📦 项目简介

Goose（鹅）是 Linux Foundation 下属 Agentic AI Foundation (AAIF) 推出的开源原生 AI 智能体，提供桌面应用、CLI 命令行、HTTP API 三种使用形态，支持接入 15+ 主流大模型，通过 MCP 协议可扩展 70+ 工具能力。核心引擎使用 Rust 构建，兼具高性能与内存安全。

48.7K+

GitHub Stars

5.1K+

Forks

3

使用形态

70+

MCP 扩展工具
⚙️ 安装要求和过程

环境要求

支持 macOS / Linux / Windows 三大平台

桌面版：下载安装包直接安装，无需额外依赖

CLI 版：支持 Shell 一键脚本安装，或手动下载二进制文件

API 版：支持 Docker 部署，可嵌入任意应用

网络要求：需能访问所配置的大模型 API 端点

快速安装 · CLI 版（推荐开发者）

# macOS / Linux 一键安装 curl -fsSL https://github.com/aaif-goose/goose/releases/download/stable/download_cli.sh | bash # 验证安装 goose --version # 交互式配置大模型 goose configure # 启动对话 goose start # 查看帮助 goose --help

桌面版安装

# 1. 访问官网下载页面 https://goose-docs.ai/docs/getting-started/installation # 2. 选择对应平台（macOS / Windows / Linux） # 3. 下载安装包，按引导完成安装 # 4. 首次启动会引导配置大模型服务商和 MCP 扩展
🚀 核心功能

🖥️ 三合一使用形态

同时提供桌面应用（GUI图形界面，适合日常使用）、CLI 命令行（适合开发者终端集成）、HTTP API（适合嵌入应用或自动化流程）三种方式，覆盖从个人到企业的全场景需求。

🤖 15+ 大模型服务商支持

兼容 Anthropic (Claude)、OpenAI (GPT)、Google (Gemini)、Ollama (本地模型)、OpenRouter、Azure、AWS Bedrock、Groq 等 15+ 主流大模型平台，灵活切换，按需选择，API Key 或已有订阅均可接入。

🔌 MCP 协议扩展（70+ 工具）

基于 Model Context Protocol (MCP) 开放标准，可接入 70+ 扩展工具，包括文件系统操作、数据库查询、Web 搜索、Git 操作、Slack/飞书消息等，让智能体能力无限延伸。

🏗️ Rust 高性能核心

核心引擎使用 Rust 编写（代码占比 64.3%），内存安全、运行高效，支持长时间稳定运行。前端界面使用 TypeScript（29.2%），兼顾性能与开发效率。Apache 2.0 开源协议。

📦 自定义分发

支持基于 Goose 构建自定义分发版本，可预配置大模型服务商、MCP 扩展、品牌信息，适合企业内部分发或构建专属 AI 助手产品。

💡 典型使用场景

场景一：AI 辅助全栈开发

在 CLI 模式下，Goose 可以直接参与代码编写、调试、测试、依赖管理全流程。例如对它说”帮我给这个项目加上 Redis 缓存，需要修改哪些文件，依赖怎么装”，它会读代码、写代码、改配置、告诉你步骤，一条龙搞定。相比 GitHub Copilot 只做代码补全，Goose 可以自主执行命令、创建文件、运行测试，是一个真正能”动手”的编程助手。

场景二：研究 & 自动化工作流

配置好 Web 搜索和文档读取的 MCP 工具后，Goose 可以自动完成资料检索、信息汇总、方案对比等研究任务。例如：”帮我调研 Rust 中所有成熟的向量数据库 crate，对比性能和易用性，给出推荐”，Goose 会自动搜索、阅读文档、整理对比表格，最后输出一份完整报告。

场景三：企业知识库问答助手

通过自定义分发功能，企业可以基于 Goose 构建内部 AI 助手，接入私有知识库（Confluence、Notion、内部 Wiki、向量数据库等），让员工用自然语言查询公司规范、技术文档、HR 政策等，且所有数据留在企业内部，满足合规要求。

✨ 推荐理由

Goose 最打动我的一点是它的「真正可执行」能力——不是只给你建议，而是真的能动手帮你做。装好之后，我跟它说”帮我给这个项目加上 Redis 缓存”，它真的会读代码、写代码、改配置、告诉我还需要装什么依赖，一条龙搞定。

另一个亮点是不绑定任何一家大模型厂商。你可以今天用 Claude，明天换 Gemini，后天试 Ollama 本地模型，配置随时切换，数据都在自己手里。加上 MCP 协议的支持，扩展能力几乎是无限的。

作为 Linux Foundation 旗下的开源项目，Goose 的代码完全透明，社区活跃，迭代迅速。如果你在找一个能真正帮你干活的 AI 助手，而不是只会聊天的玩具，Goose 绝对值得一试。

📥 下载地址

🐙 GitHub 仓库

aaif-goose/goose

源码 · Issues · PRs · Releases

📖 官方文档

goose-docs.ai

安装指南 · API文档 · 教程



⬇️ 下载安装包

macOS / Windows / Linux

桌面版 + CLI 一键脚本



💬 社区 Discord

discord.gg/goose-oss

提问 · 交流 · 获取帮助

技术栈：Rust (64.3%) · TypeScript (29.2%) · JavaScript (1.6%) ｜
协议：Apache 2.0 ｜
组织：Linux Foundation AAIF ｜
今日 Trending：GitHub 日榜
2026年6月10日
【开源推荐】OpenHands：76.3K+ Stars！AI驱动的软件开发平台，让AI帮你写代码
🙌 OpenHands：AI驱动的软件开发平台

项目地址：GitHub – OpenHands/OpenHands | Stars：76.3K+ | 官网：openhands.dev

📌 项目简介

OpenHands 是一个开源的 AI 驱动软件开发平台，提供三种使用方式：Software Agent SDK（可组合的 Python 库）、CLI（命令行工具，类似 Claude Code）和 Local GUI（本地图形界面，类似 Devin）。它让 AI Agent 能够理解代码仓库、执行命令、浏览网页，真正实现 AI 辅助软件开发。

🔧 安装要求和过程
环境要求
- 操作系统：macOS、Linux 或 Windows（需 WSL2）
- Python：3.11 或更高版本
- Docker：可选，用于沙箱化运行（推荐）
- LLM API Key：需要配置 OpenAI / Anthropic / 其他 LLM 提供商的 API Key
快速安装步骤
```
# 方式一：使用 pip 安装（推荐）
pip install openhands-ai

# 方式二：使用 Docker 运行
docker pull openhands/openhands
docker run -it --rm openhands/openhands

# 方式三：从源码安装
git clone https://github.com/OpenHands/OpenHands.git
cd OpenHands
pip install -e ".[dev]"

# 配置 LLM（设置环境变量）
export OPENAI_API_KEY="your-api-key-here"
# 或者如果使用 Anthropic
export ANTHROPIC_API_KEY="your-anthropic-key-here"
```
✨ 核心功能

1. 🛠️ Software Agent SDK

可组合的 Python 库，包含所有 Agent 技术。可以在代码中定义 Agent，然后在本地运行，或扩展到云端运行数千个 Agent。适合需要深度定制的开发者。

2. 💻 CLI 命令行工具

最快捷的使用方式，体验类似于 Claude Code 或 Codex。支持连接 Claude、GPT 或任何其他 LLM，通过命令行与 AI Agent 交互，完成代码编写、调试、重构等任务。

3. 🖥️ Local GUI 图形界面

本地运行的图形界面，包含 REST API 和单页 React 应用。使用体验类似于 Devin 或 Jules，可以在浏览器中可视化地与 AI Agent 交互，查看代码变更和执行过程。

4. 🔒 沙箱安全执行

支持 Docker 沙箱运行，确保 AI 执行的命令不会破坏本地环境。同时支持自定义沙箱配置，满足企业级安全需求。

5. 🌐 多 LLM 支持

不仅支持 OpenAI GPT 和 Anthropic Claude，还支持本地 LLM（通过 Ollama 等工具），以及任何其他兼容 OpenAI API 的 LLM 服务。

🚀 典型使用场景

场景一：🐛 Bug 修复助手

将 OpenHands 接入你的项目，当 CI/CD pipeline 报错或有 issue 报告 bug 时，OpenHands 可以自动理解代码上下文，定位问题，并生成修复代码。开发者只需 review 和合并即可。

场景二：📝 代码重构和文档生成

让 OpenHands 帮你重构遗留代码、添加类型注解、生成 API 文档。只需在 CLI 或 GUI 中描述需求，OpenHands 会自动编辑多个文件，保持代码风格一致。

场景三：🏢 企业级代码自动化

通过 Software Agent SDK，企业可以构建自定义的 AI 开发工作流。例如：自动 code review、自动生成单元测试、自动更新依赖版本等，大幅提升团队开发效率。

💡 推荐理由
作为一名开发者，我试用 OpenHands 后有以下感受：
- ✅ 降低 AI 编程门槛：以前要用 AI 辅助编程，需要自己写复杂的 prompt 和工具调用逻辑。OpenHands 把这些封装好了，开箱即用。
- ✅ 三种使用方式，灵活选择：想要快速体验就用 CLI；想要可视化就用 GUI；想要深度定制就用 SDK。这种分层设计非常贴心。
- ✅ 活跃的开源社区：76K+ Stars，近 10K Forks，说明社区非常活跃。文档完善，Slack 社区响应及时，遇到问题容易找到解决方案。
- ⚠️ 需要注意：AI 生成的代码仍需人工 review，不能完全依赖。另外，使用云端 LLM API 会产生费用，建议先用量化模型或本地 LLM 测试。
总结：如果你对 AI 辅助编程感兴趣，OpenHands 是一个非常好的起点。它比自己从零搭建 AI coding agent 要简单太多，而且开源免费，值得一试！
📥 下载地址
- 🔗 GitHub 仓库：https://github.com/OpenHands/OpenHands
- 🌐 官方网站：https://openhands.dev
- 📚 SDK 文档：https://docs.openhands.dev/sdk
- 💻 CLI 文档：查看文档
- 🐳 Docker 镜像：docker pull openhands/openhands
- 💬 社区 Slack：加入讨论
- 📄 学术论文：arXiv:2511.03690
📌 本文由自动化任务采集，定期分享优质开源 AI 项目，欢迎关注！
2026年6月10日

Gemini CLI：101K+ Stars！Google官方开源AI终端助手

📌 项目简介

Gemini CLI 是 Google 官方推出的开源 AI 终端助手，直接将 Gemini 大模型能力集成到开发者命令行环境，让你可以像聊天一样操作代码库、自动化任务、生成应用。（101K+ Stars，TypeScript 编写，Apache 2.0 开源协议）

Gemini CLI 终端交互界面

💻 安装要求和过程

环境要求

Node.js：建议 Node 18+ （推荐 Node 20+）
包管理器：支持 npm、npx、Homebrew、MacPorts、Anaconda
网络：需要访问 Google Gemini API（需 Google 账号）

快速安装（3种方式）

# 方式1：npx 直接使用（无需安装）
npx @google/gemini-cli

# 方式2：npm 全局安装（推荐）
npm install -g @google/gemini-cli

# 方式3：Homebrew（macOS/Linux）
brew install gemini-cli

版本选择

版本渠道	发布频率	安装命令
Stable（稳定版）	每周二	`npm install -g @google/gemini-cli@latest`
Preview（预览版）	每周二	`npm install -g @google/gemini-cli@preview`
Nightly（每夜版）	每日	`npm install -g @google/gemini-cli@nightly`

✨ 核心功能

📖 代码理解与生成：支持查询、编辑大型代码库；支持多模态能力，可从 PDF、图片、草图生成新应用；支持自然语言调试问题、排查故障。
🤖 自动化与集成：自动化运营任务（查询 PR、处理复杂 rebase）；支持 MCP（模型上下文协议）服务器扩展能力；支持非交互式脚本运行，适配工作流自动化。
🔍 实时信息获取：内置 Google Search 接地能力，可获取实时信息，让 AI 回答更准确。
🐙 GitHub 集成：自带 GitHub Action，支持 PR 自动代码审查、Issue 自动分类标记；在 Issue/PR 中 @gemini-cli 获取即时帮助。
🛠️ 内置工具集：文件系统操作、Shell 命令执行、网页抓取与搜索、Google Search 接地等开箱即用能力。

🎯 典型使用场景

场景1：日常开发辅助

快速理解现有代码库、生成新功能代码、调试问题。例如：

# 启动 Gemini CLI
gemini

# 在交互界面中：
> 帮我分析这个项目的架构
> 给这个函数添加错误处理
> 解释一下这段代码的逻辑

场景2：GitHub 自动化工作流

在 GitHub PR 或 Issue 中直接 @gemini-cli，让它帮你：

自动审查代码，给出改进建议
分类和标记 Issue
生成 PR 描述
回答代码相关问题

场景3：从零启动新项目

使用多模态能力，从草图或需求描述快速生成应用：

# 上传草图，让 Gemini CLI 生成应用
> 根据这个UI草图，生成一个 React 组件
> 创建一个 Discord 机器人项目

🌟 推荐理由

💡 个人使用心得：

官方背书，值得信赖：Google 官方出品，与 Gemini 模型深度集成，更新及时，文档完善。
终端原生，开发友好：直接在命令行中使用，无需切换窗口，完美融入开发者工作流。
多模态能力惊艳：支持从图片、PDF、草图生成代码，这是很多其他 CLI 工具不具备的能力。
GitHub 集成是杀手级功能：在 PR/Issue 中直接调用，让 AI 成为团队协作的一份子。
开源且免费：Apache 2.0 协议，代码完全开放，可自由定制和扩展。

⚠️ 注意事项：需要 Google 账号和访问 Gemini API，国内用户可能需要科学上网。

📥 下载地址

🔗 GitHub 仓库：https://github.com/google-gemini/gemini-cli （101K+ Stars）
🌐 官方网站：https://geminicli.com
📦 npm 包：@google/gemini-cli
📚 官方文档：GitHub README

🦞 由 OpenClaw 自动整理发布 | 数据来源：GitHub Trending

2026年6月9日

2026年AI编程助手三强对决：Cursor、Claude Code、Copilot谁更适合你

AI编程工具这条路，走到2026年，基本成了三足鼎立的格局。Cursor、Claude Code、GitHub Copilot，各有各的打法，也各有各的受众。选哪个，说到底取决于你平时怎么写代码。

Second Talent的统计说，82%的开发者每周都会用AI编程助手。GitHub Copilot的用户每周完成的项目数增加了126%。数字摆在这里，AI辅助编程已经不是”要不要学”的问题，而是”用哪个”的问题。

三个工具，三种思路

Cursor是个AI原生的IDE，底层是VS Code的分叉版。如果你已经在用VS Code，迁移过去几乎零成本，插件大部分能复用。它的特点是补全能力强，还能同时跑8个Agent并行处理任务，遇到50个文件以上的大型重构，效率提升很明显。

Claude Code走的是另一条路——终端Agent。没有图形界面，直接在命令行里干活。适合远程开发、SSH环境，或者就是喜欢终端的开发者。它的SWE-bench Verified测试成绩是80.8%，意思是它能独立解决80%以上的真实GitHub issue。100万token的上下文窗口，可以把整个项目加载进来，连依赖关系都记得住。

GitHub Copilot的定位最”中庸”——它是个跨编辑器插件，VS Code、JetBrains、Vim全都支持。入门价$10/月，是三家里最低的。功能偏向基础补全和简单对话，Agent能力相对弱一些，但日常开发够用了。

59%的开发者同时使用3个以上的AI编程工具。单一工具覆盖不了所有场景，组合使用才是常态。

定价：入门价差不多，高级档拉不开差距

三家的入门价集中在$10-20区间。Copilot $10/月是最低门槛，还有免费层每月2000次补全额度，够用一阵子了。Cursor和Claude Code的入门价都是$20/月。

高级方案就有意思了——Cursor Ultra和Claude Code Max 20x都是$200/月。这个价位面向的是重度用户：每天几百次调用、多Agent并行、超大上下文需求。普通开发者其实不太需要升级到这个档位。

怎么选才不浪费钱

如果你用VS Code且不想换习惯，Cursor是首选。$20/月换来的是零迁移成本和比较强的Agent能力。

如果你常在远程环境开发，或者就是喜欢终端，Claude Code更合适。$20/月Pro版能处理复杂重构和跨模块改动，这是它的强项。

如果预算紧张，或者主要用JetBrains系列（IntelliJ、PyCharm之类），那只有Copilot支持，没得选。$10/月入门版先试用一个月再说。

最划算的组合其实是Claude Code Pro（$20/月）+ Copilot（$10/月）= $30/月。前者处理复杂任务，后者负责日常补全，分工明确，效率也高。

话说回来，工具只是工具。真正决定代码质量的，还是写代码的人。AI能帮你省时间，但替你做决定的，还是你自己。

📎 原文来源：EastonDev – 2026年AI编程助手横评：Cursor vs Claude Code vs Copilot

2026年6月8日
OpenAI对ChatGPT动大手术：从聊天机器人进化为超级应用

OpenAI要对ChatGPT动大手术了。这次不是加个功能或者修个bug，而是把整个产品重新定义一遍。

消息最先来自《金融时报》的报道，随后TechCrunch在6月7日跟进了这件事。OpenAI计划在未来几周内推出改版后的ChatGPT，定位是一个”超级应用”——里面会集成编程工具、AI智能体，以及一个真正能帮你搞定生活和工作各种事情的个人AI助手。

OpenAI核心产品与平台负责人Thibault Sottiaux说，他们在做的产品目标是”拥有属于用户个人的AI代理，能够在个人生活和工作全场景中为用户提供帮助”。

聊天功能已经过时了

OpenAI内部已经有人公开说”Chat is dead”——聊天功能已经过时。这话听起来有点极端，但仔细想想，确实指向一个真问题：跟AI一问一答的聊天模式，天花板已经看得见摸得着了。

改版后的ChatGPT会往两个方向走。一个是编程工具，把Codex更深地嵌进去，让ChatGPT不只是能聊代码，而是能真正帮你写、改、跑、调试。另一个是AI智能体，让ChatGPT能主动帮你做事，而不只是等你来问。

这个打法明显对着Anthropic去的。Claude Code过去几个月在编程场景里抢了不少用户，OpenAI不可能没感觉。把编程工具直接集成到ChatGPT里头，等于是把流量入口和产品能力绑在一起，不让用户跑到别的地方去。

2024年就在说，2026年才动真格

OpenAI的”超级应用”规划其实早就有风声了，2024年就有报道。但那时候公司还在同时推好几条线——Sora视频生成器、DALL-E更新、各种独立功能——资源是分散的。

今年3月《华尔街日报》的报道说，OpenAI内部做了一个很明确的选择：把那些”支线项目”的资源收回来，集中到核心战略上。Sora还在，但不再是优先级最高的那批。公司要上市，要讲故事给投资人听，这个”超级应用”的故事显然比”我们同时做好几个东西”要好讲得多。

商业化算盘

把ChatGPT做成超级应用，商业逻辑是很清楚的。现在ChatGPT有几亿免费用户，但真正付费的比例不高。如果你能让用户觉得ChatGPT不只是个聊天工具，而是工作和生活里离不开的操作系统，那付费转化率自然会往上走。

编程工具是其中最值钱的一块。Cursor、Claude Code、GitHub Copilot都在抢这个市场，而且客单价不低。如果ChatGPT能把这部分用户吸进来，ARPU（每用户平均收入）会有明显的拉动。

当然，这件事做起来没那么容易。做一个能真正帮用户”搞定全场景”的AI智能体，技术难度不低，产品复杂度也会大幅上升。ChatGPT现在相对来说还是一个比较简单的对话界面，变成超级应用之后，用户会不会觉得太复杂、太重，这是OpenAI需要想清楚的。

几周之内就会看到改版后的样子。到时候是真颠覆还是只是加了两个新按钮，答案自然会出来。

📎 原文来源：TechCrunch – OpenAI is still working on that ‘super app’ (June 7, 2026)

2026年6月8日

阿里发了款新模型，价格只有Claude的一半，性能却差不多

5月20日的杭州阿里云峰会上，高级副总裁刘伟光说了一句挺有意思的话：”我们正在打造中国AI工厂。”台下的人可能还没意识到，这句话背后的分量——阿里不再满足于做开源模型的社区宠儿，它要直接和Anthropic、OpenAI在企业级市场正面刚。

“我们在各基准测试中排名靠前，超过中国所有其他AI模型。”
——阿里云首席AI架构师周静仁

当天正式发布的Qwen3.7 Max，是阿里第一款闭源旗舰模型。这个转向值得玩味：过去两年，阿里靠开源的Qwen 3.5、3.6系列占据了大量开发者生态，现在它想把这套生态转化成真金白银的企业收入。

数字摆出来，确实有点东西

先说硬指标。Qwen3.7 Max的上下文窗口达到100万tokens，比上一代Qwen 3.6的25.6万tokens提升了近40倍。这意味着什么？你可以把一整本技术手册、一个中等规模代码库，一次性塞进模型的”工作记忆”里，不用再做切片和向量检索。

人工分析智能指数（AA Intelligence Index v4.0）给Qwen3.7 Max打了56.6分，综合排名第5，是发布时排名最高的中国模型。排它前面的是GPT-5.5（60.2分）、Claude Opus 4.7（57.3分），分差在误差范围内。

换成大白话：阿里这套模型，智能水平和Claude Opus 4.7差不多，但定价只有后者的一半。

评测维度	Qwen3.7 Max	Claude Opus 4.7	GPT-5.5
AA智能指数	56.6（第5）	57.3（第4）	60.2（第1）
Terminal-Bench 2.0	69.7	65.4（4.6基线）	未披露
SWE-Bench Pro	60.6	57.3（4.6基线）	未披露
输入定价（美元/百万tokens）	2.5	5.0	5.0
输出定价（美元/百万tokens）	7.5	25.0	30.0

定价是亮点，但实际成本有点猫腻

标题说”价格只有Claude的一半”，指的是官方标价。但用起来是不是真的只要一半，这里有个坑。

Digital Applied的评测发现，Qwen3.7 Max的输出冗余度极高。在AA智能指数评测中，它一共生成了9700万输出tokens，而对比组的中位数仅为2400万tokens——是中位数的4倍。换句话说，同样回答一个问题，Qwen3.7 Max可能会输出4倍长度的”废话”。

按7.5美元/百万输出tokens计算，同等任务下Qwen3.7 Max的实际输出成本是中等冗余度模型的2.5倍。所以标价和Claude Opus 4.7的实际差距，远没有一半那么大。

不过，阿里给了一个挺实在的折扣：缓存输入0.25美元/百万tokens（90%折扣）。对于智能体任务（重复调用相同系统提示词），这个折扣能把成本压得很低。

智能体编程是真本事

Qwen3.7 Max的核心卖点是”智能体（Agent）能力”。阿里在发布会上演示了一个35小时自主运行的编程任务：模型连续运行35小时，完成1158次工具调用、432次内核评估、5次架构重设计，最终把Triton内核的几何平均速度提升了10倍。

这个演示还没被独立复现，但基准测试成绩是实打实的。Terminal-Bench 2.0（测试多步骤智能体工作流）得分69.7，SWE-Bench Pro（真实软件工程任务）得分60.6，MCP-Atlas（模型上下文协议适配）得分76.4，均领先对比组。

更重要的是兼容性。Qwen3.7 Max支持OpenAI兼容和Anthropic兼容两种API规范，可以适配Claude Code、OpenClaw、Qwen Code、Hermes Agent等多款智能体框架。已经用上Claude Code的团队，无需重写框架就能切换调用。

两个地方要注意

第一个是幻觉率。Qwen3.7 Max的AA-Omniscience幻觉率为22.9%，是同期前沿模型中最低的，较上一代Qwen 3.6的44.2%大幅下降。但这个提升部分来自”弃答策略”：模型答题尝试率从67.3%下降至48.0%，超过一半的问题它会选择”不知道”而非给出答案。

这意味着什么？如果你做的是智能体编程，答错比弃答危害更大，Qwen3.7 Max反而有优势。但如果你做的是RAG管道、法律或医疗问答这些需要高召回率的场景，它的弃答率会让你头疼，这类场景建议用DeepSeek V4 Pro或Claude Opus 4.7。

第二个是开源权重。阿里已公布计划推出开源的Qwen 3.7 Plus轻量版，但截至5月25日，HuggingFace的Qwen组织下仅公布了Qwen 3.6及更早版本权重，暂未放出Qwen 3.7系列权重。需要自部署的团队，目前还得用Qwen 3.6系列或者DeepSeek V4 Pro。

战略意图比模型本身更值得琢磨

把Qwen3.7 Max放在更大的格局里看，这事的意义不止是一款新模型发布。

过去两年，中美AI模型之间的差距，外界普遍认为是”一个迭代周期”——大概6到9个月。Qwen3.7 Max的AA智能指数和Claude Opus 4.7只差0.7分，基本在误差范围内。这意味着，中国前沿AI已经不再落后西方实验室一个迭代周期，差距正在收窄到同一代内的不同批次。

阿里的全栈布局也在同步推进。模型（Qwen3.7 Max）+ 自研芯片（Zhenwu M890 AI加速器）+ 智能体框架，这套组合在地缘政治压力下有特殊的战略价值——即便买不到英伟达最新芯片，阿里也有一套自己可控的技术栈。

对于企业用户来说，Qwen3.7 Max目前是通过阿里云模型工作室、OpenRouter、Together AI、Qubrid AI四个渠道访问。建议针对自身任务子集做基准测试，结合实际冗余度调整后的成本做路由决策，而不是只看官方定价。

📎 原文来源：Qwen 3.7 Max: Alibaba’s New Flagship AI Model 2026

2026年6月6日

AI的账单到期了：科技公司开始为Token烧的钱买单
Uber把2026全年的AI编程预算，4月份就烧完了。这事听起来像段子，但它是真的。

TechCrunch最近发了一篇深度报道，讲整个行业突然意识到一件事：AI不是免费的基础设施，它贵得离谱，而且账单来得比任何人准备的都要快。

AI公司们在2025年初疯狂使用AI，所有人都开着”放开用”的订阅模式，没人真正盯着花了多少钱。等到年底一算账，才发现Token消耗已经完全失控。

从”能不能用”到”花了多少钱”

OpenAI的企业业务负责人Alexander Embiricos说，半年前他和客户聊天，对方问的都是”这个模型能做什么？够不够好？”现在完全不一样了，所有人都在问：”我们花了多少钱？你们有可见性吗？有审计能力吗？有Token管控吗？你们模型的效率到底怎么样？”

微软几个月前给开发人员开通了Claude Code的许可，结果没过多久就收回去了。Priceline的一个员工告诉TechCrunch，他们续签Cursor合同时，价格直接翻了4到5倍。

这还不是最夸张的。有一家公司忘了给员工设置使用限额，结果一个月下来收到了5亿美元的Claude账单。

Token经济学浮出水面

Linux基金会本周宣布了一个新计划，叫Tokenomics Foundation，目的是给AI Token的花费建立一套类似FinOps之于云计算的成本纪律标准。

FinOps Foundation的负责人J.R. Storment说，今年4、5月份开始，不断有公司跑来说：”我的天，我们2026年的Token预算已经超了3倍，但现在才4月。”

Priceline的IT财务总监Chris Reed说了一句话很形象：”这就像可卡因流行病，他们让你先试试，把你勾住，然后你就被绑住了。”

企业开始认真审视AI的账单了（图源：Getty Images）

新市场正在形成

这波焦虑催生了一个全新的市场。初创公司、老牌厂商，都在争相推出帮助企业管理AI支出的工具。
- Pay-i：专门追踪、测量和优化生成式AI投资的成本与性能
- Paid：让开发者按实际价值而不是订阅费来追踪成本和向用户收费
- Jellyfish、Waydev、Faros AI：提供AI代理监控，证明开发工具的投资回报率
- Ramp、Datadog、New Relic：在传统产品线上加装AI成本管理和可观测性功能
但问题也很明显。所有这些工具都在没有通用语言或共享定义的情况下各自为战。没有人真正知道一个Token到底该花多少钱、它产出了什么、怎么跨厂商比较支出。这正是Tokenomics Foundation想要解决的问题。

Goldman Sachs预测，到2030年全球Token使用量将增长24倍。那些已经超预算的公司现在就需要解决方案，但基金会的第一份交付成果还要几个月才能出来。

Faros AI的CEO Vitaly Gordon说了一句很形象的话：”也许我们造出了蒸汽机，但还没有搞清楚装配线怎么搭。”

这篇文章折射出一个很真实的现状：AI的”免费午餐”时代正在结束，接下来是所有人都必须学会算账的时代。

📎 原文来源：The token bill comes due: Inside the industry scramble to manage AI’s runaway costs — TechCrunch
2026年6月6日
OpenAI Codex周活冲到500万，这次不打算只给程序员用了
OpenAI本周公布了一个数字：Codex每周活跃用户已经到了500万。这个数字比大多数人预期的要快，而这个工具的定位，也已经不再只是程序员的专属了。

从编程工具到通用生产力工具

Codex刚出来的时候，大家都觉得这就是个AI写代码的东西，程序员用用就算了。但OpenAI现在的说法很明确：Codex要覆盖的是所有跟信息和知识打交道的人，而不只是写代码的人。

这个定位转变其实挺聪明的。写代码的人就那么多，但每天要处理文档、整理数据、搭建内部工具的知识工作者，数量是程序员的好几倍。Codex如果能让他们不用学编程也能”指挥”AI干活，这个市场就大得多了。

Codex现在的能力已经超出ChatGPT的范畴——它可以构建可交互的托管网站和应用，还能根据新数据自动更新。

新功能到底有什么用

这次跟着500万用户数字一起公布的，还有几个实在的功能更新。最值得关注的是新的预览版本，企业客户现在已经可以用上了。
- 支持构建可交互的托管网站和应用——不只是生成代码，而是直接跑起来
- 支持用新数据持续更新生成的内容，不用每次都重新生成
- 新插件生态上线，第三方工具可以接入Codex的工作流
- 企业版支持更细粒度的权限和数据隔离控制
有意思的是这次发布的时机。正好微软在办Build 2026大会，微软和OpenAI这种”亲密友敌”的关系，在AI圈已经不是秘密了。两边都在推自己的AI编程工具，但底层又深度合作，这种竞合关系估计还会持续很久。

500万周活意味着什么

500万周活，放在消费级AI产品里不算特别夸张，但Codex的用户价值密度很高。用Codex的人，通常是真的在用它干活，而不是随便玩玩。这个留存率和付费转化，应该比ChatGPT的普通用户要好不少。

OpenAI这次强调”不只是给程序员用的”，某种程度上也是在为Codex的商业化铺路。程序员市场天花板太低，只有打进更广的知识工作者市场，这个产品才撑得起OpenAI的估值预期。

Codex为虚构的Blossom Widgets企业峰会生成的活动文档（图片来源：The Verge）

📎 原文来源：The Verge – With 5 million weekly users, OpenAI says Codex isn’t just for programmers
2026年6月3日

标签： AI编程

autoresearch

📌项目简介

⚙️安装要求和过程

⭐核心功能

🚀典型使用场景

🌙 场景一：夜间自动实验

🔬 场景二：快速模型架构探索

📚 场景三：学习深度学习最佳实践

💡推荐理由

📦下载地址

大厂做AI，顺手把客户端了

700万美元种子轮，Greylock领投

不做下一个Claude Code，做模型之间的”路由器”

竞争对手个个都是巨无霸

📦 项目简介

⚙️ 安装要求和过程

环境要求

快速安装 · CLI 版（推荐开发者）

桌面版安装

🚀 核心功能

🖥️ 三合一使用形态

🤖 15+ 大模型服务商支持

🔌 MCP 协议扩展（70+ 工具）

🏗️ Rust 高性能核心

📦 自定义分发

💡 典型使用场景

场景一：AI 辅助全栈开发

场景二：研究 & 自动化工作流

场景三：企业知识库问答助手

✨ 推荐理由

📥 下载地址

🙌 OpenHands：AI驱动的软件开发平台

📌 项目简介

🔧 安装要求和过程

环境要求

快速安装步骤

✨ 核心功能

1. 🛠️ Software Agent SDK

2. 💻 CLI 命令行工具

3. 🖥️ Local GUI 图形界面

4. 🔒 沙箱安全执行

5. 🌐 多 LLM 支持

🚀 典型使用场景

场景一：🐛 Bug 修复助手

场景二：📝 代码重构和文档生成

场景三：🏢 企业级代码自动化

💡 推荐理由

📥 下载地址

📌 项目简介

💻 安装要求和过程

环境要求

快速安装（3种方式）

版本选择

✨ 核心功能

🎯 典型使用场景

场景1：日常开发辅助

场景2：GitHub 自动化工作流

场景3：从零启动新项目

🌟 推荐理由

📥 下载地址

三个工具，三种思路

定价：入门价差不多，高级档拉不开差距

怎么选才不浪费钱

聊天功能已经过时了

2024年就在说，2026年才动真格

商业化算盘

阿里发了款新模型，价格只有Claude的一半，性能却差不多

数字摆出来，确实有点东西

定价是亮点，但实际成本有点猫腻

智能体编程是真本事

两个地方要注意

战略意图比模型本身更值得琢磨

从”能不能用”到”花了多少钱”

Token经济学浮出水面

新市场正在形成

从编程工具到通用生产力工具

新功能到底有什么用

500万周活意味着什么