标签: AI编程

  • OpenAI Codex 登陆 Windows:AI 现在能直接操控你的电脑了

    OpenAI Codex 登陆 Windows:你的电脑现在可以被 AI 直接操控了

    OpenAI 的 Codex 之前在 macOS 上已经能用了,现在它的 “computer use”(电脑控制)功能正式来到 Windows。简单说,就是这个应用可以”看到”你的屏幕,然后在你的设备上直接执行各种任务。

    OpenAI 同时还说了一件事:哪怕你不在电脑旁边,也可以用 ChatGPT 应用来管理和查看 Codex 的任务进度。这对需要跑长任务的开发者来说挺实用的。

    Codex 的 computer use 功能本质上是让 AI 能够像人一样操作电脑——移动鼠标、点击按钮、输入文字、截图查看结果。

    为什么这个功能重要

    以前你想让 AI 帮你操作电脑,要么得手动把信息复制粘贴过去,要么得用专门的 RPA 工具。现在 Codex 能直接”看”屏幕,相当于给了 AI 一双眼睛和一只手。

    对开发者来说,这意味着一些重复性操作——比如跑测试、部署代码、处理批量文件——可以真正交给 AI 代理去完成,而不只是帮你写代码。

    跨平台的意义

    Windows 在全球桌面操作系统里占的市场份额比 macOS 大得多。Codex 登陆 Windows,意味着 OpenAI 的 AI 编程工具能触达的开发者数量会上一个数量级。

    这也和现在 AI 编程工具的竞争态势有关。Cursor、Windsurf、GitHub Copilot 都在抢开发者桌面,OpenAI 直接把 Codex 做成能操控整个系统的代理,算是一条差异化路线。


    目前这个功能还在推送中,Windows 用户可以在 Codex 应用里检查更新。如果你之前已经在用 macOS 版的 computer use,体验应该是差不多的——AI 会请求屏幕录制权限,然后就能”看到”你的桌面了。

  • Claude Opus 4.8来了:一口气跑1000个子智能体,代码审查聪明4倍

    昨天(5月28日),Anthropic把Claude Opus 4.8扔了出来。这次更新的重点很明确:让AI在写代码这件事上更像一个能独立工作的资深工程师,而不是一个需要你步步盯着的高级补全工具。

    代码缺陷少4倍,这才是最值钱的地方

    Opus 4.8最核心的改进,是代码质量。Anthropic说,这个模型生成的代码里有缺陷但没被标记出来的概率,比上一代低了大约4倍。对那些把AI辅助编程塞进生产流程的团队来说,这个改进直接等于少掉很多坑——未检测到的代码缺陷,在 downstream 产生的修复成本是 exponentially 增长的。

    基准测试的数据也佐证了这一点:代理编码得分从64.3%爬到了69.2%,使用工具的多学科推理从54.7%提到57.9%,知识工作得分从1753分涨到1890分。数字看起来增幅不大,但在AI模型迭代里,这种全方位的几个百分点提升,往往意味着实际使用中”可用”和”好用”之间的差距。

    Anthropic对Opus 4.8的描述是:”更敏锐的判断力、更诚实地展示其进展,以及比前代模型更长时间独立工作的能力。”这三个点,其实正好对应了企业开发者对AI编码助手最头疼的三个问题:判断不准、爱装懂、干两分钟就得人工介入。

    动态工作流:1000个子智能体一起干活

    这次最炸裂的功能叫”动态工作流”(Dynamic Workflows),目前在research preview阶段。简单说,就是Claude现在可以写编排脚本,生成并管理几十到几百个并行子代理,从任务启动到完成全程自动跑。

    上限是每个运行最多16个并发子代理、总共1000个子代理。实际场景是什么样子?比如你要迁移一个几十万行代码的代码库,以前你得手动拆任务、分配、汇总,现在Opus 4.8可以直接把整个代码库迁移从启动做到生成可合并的拉取请求,中间不用你手动协调。

    这个功能一旦正式上线,对大型代码库维护团队来说是个.game changer。不需要额外写编排逻辑,不需要手动拆解任务,模型自己决定怎么把大任务碎成小任务、怎么并行跑、怎么汇总结果。

    快速模式:快2.5倍,便宜3倍

    Anthropic还把快速模式(Fast Mode)大幅升级了。新版本的快速模式比标准推理快大约2.5倍,而成本只有之前Opus模型快速模式的三分之一。定价是每百万输入token 10美元、每百万输出token 25美元。

    新的”努力控制”(Effort Control)设置也值得提一下:用户可以调整Claude在任务上投入的计算量。Opus 4.8默认是”高努力”,Anthropic认为这对大多数工作负载来说是最佳平衡。如果你要处理的任务比较轻量,可以调低努力级别来省钱。

    已经在哪能用

    从昨天开始,Opus 4.8已经在以下平台可用:

    • Claude API——直接给开发者和平台构建者用
    • Amazon Bedrock——集成到AWS基础设施里
    • Google Cloud Vertex AI——GCP托管AI服务中可用
    • Microsoft Foundry——通过Microsoft的AI开发平台访问

    已经在生产环境跑Opus 4.7的团队,迁移基本无感——模型标识符更新一下就行,价格没变,这也是Anthropic故意做的”升级成本中性”设计。

    下一步:Mythos级模型已经在路上

    Anthropic已经确认正在开发新一代”Mythos级”模型,会在”未来几周内”发布。目前关于架构、能力基准或定价的细节都没披露,但Opus 4.8看起来更像一个短期过渡版本,而不是一个长周期旗舰。这也延续了Anthropic在2025年和2026年加速模型更新的节奏——不再憋大招,而是快速迭代、快速铺开。

    对于每天都在跟AI编码助手打交道的开发者来说,Opus 4.8最直观的感受可能就是:它犯傻的频率低了,能独立跑的时间长了,而你需要手动介入的次数——终于开始明显减少了。


  • Google I/O 2026:Gemini 3.5发布,AI智能体全面入侵谷歌全产品线

    北京时间5月20日凌晨,谷歌I/O 2026开发者大会开幕。今年发布会的重点不是某一个单一模型或功能,而是一次系统性转向——谷歌正在把AI智能体全面”塞进”所有核心入口。

    从搜索框到Chrome浏览器,从Android手机到智能眼镜,Gemini不再只是一个对话助手,而是一个可以持续运行、跨应用执行任务的AI代理:它能替用户追踪信息、生成内容、调用工具,甚至直接完成下单和操作流程。

    Google I/O 2026
    谷歌I/O 2026大会现场(图源:新浪科技)

    Gemini 3.5 Flash:价格砍半,速度4倍

    谷歌CEO桑达尔·皮查伊在主题演讲中发布了新一代大模型系列Gemini 3.5。首发推出的Gemini 3.5 Flash定位为”迄今最强大的智能体与编程模型”,输出Token速率达到其他前沿模型的4倍,而处理智能体任务的费用不到其他前沿模型的一半

    在GDPval-AA基准(衡量现实世界具有实际经济价值的编程任务)中,Gemini 3.5 Flash取得1656 Elo评分,超过了Gemini 3.1 Pro,也超过了目前公开可查的大部分前沿模型。在Terminal-Bench 2.1(衡量AI在真实终端环境中完成复杂任务的能力)中,得分76.2%——这意味着智能体在执行真实任务时的可靠性,正在从”勉强可用”向”可以依赖”跨越。

    皮查伊在演讲中直言:”Flash的惊人之处在于,它以不到同类前沿模型一半的价格,提供了前沿级别的能力。”当一家巨头愿意用”砍半定价”来推广自己的最前沿模型时,它传达的信号不是”我在让利”,而是”我要把竞争对手挤出市场”。

    视频模型Omni与智能体编程平台Antigravity 2.0

    DeepMind首席执行官德米斯·哈萨比斯登台发布了基于谷歌世界模型技术积累的新型视频生成模型Gemini Omni。该模型可以基于多种输入生成视频,并支持对话式编辑,用户可以通过自然语言修改角色、背景和场景。首款模型Gemini Omni Flash将于今年夏季推出。

    与此同时,谷歌发布了智能体编程平台Antigravity 2.0,直接对标Anthropic的Claude Code和OpenAI的Codex。该平台被谷歌定位为面向AI Agent时代的编程工具,官方称其”毫不掩饰地以智能体为先”。使用Antigravity 2.0及其代理系统从零开始构建一个操作系统,整个过程所消耗的Token成本不到1000美元。

    个人AI助手Gemini Spark与全线产品整合

    谷歌同时发布了全天候运行的个人AI助手Gemini Spark,基于Gemini 3.5,运行在Google Cloud虚拟机上。用户可以通过Gemini应用访问Spark,即便合上笔记本电脑,Spark也可以继续工作。本周将面向受信任测试人员推出,下周面向美国Google AI Ultra订阅用户开放。

    更重要的是,谷歌宣布了全线产品的AI智能体整合计划:

    • 搜索:将推出搜索信息智能体,后台24/7运行,主动发现信息并代为执行操作;Daily Brief Agent将整合用户的邮件、日历与任务,生成个性化晨间摘要。
    • Android:2026年晚些时候推出Android Halo,为用户提供实时智能体任务追踪界面。
    • 硬件:由Gentle Monster、Warby Parker与三星合作推出的Android XR智能眼镜将于2026年秋季上市,支持语音交互和信息投射。
    • 购物:发布由AI智能体驱动的通用购物车Universal Cart,可在Google服务中使用,追踪优惠、监控价格变动、识别兼容性问题。

    规模即壁垒:1800亿美元资本支出背后的逻辑

    皮查伊在演讲中披露了一组震撼数据:谷歌每月处理的Token数量已达到3.2千万亿,同比增长7倍;Gemini App月活跃用户从4亿增长至9亿;搜索AI模式月活跃用户突破10亿

    支撑这一切的,是谷歌2026年预计1800亿至1900亿美元的资本支出。这1800多亿美元的资本支出,本质上是在做一件事:用基础设施的规模化优势,把竞争对手挤出市场。当你的TPU集群规模、Token处理量和用户基数都达到竞争对手无法匹敌的量级时,”速度4倍、价格砍半”就不再是一个促销手段,而是一个结构性壁垒。

    回到根本问题:Gemini 3.5的发布,究竟是一次真正的技术飞跃,还是一次精心包装的战略营销?答案可能是:两者都是。从技术角度看,Gemini 3.5 Flash在基准测试中的表现、推理速度的提升、以及多智能体并行架构的落地,都是真实的进步。但与此同时,这次发布真正值得关注的,不是模型本身,而是谷歌围绕模型构建的全栈壁垒:TPU 8提供算力、Gemini 3.5提供智能、Antigravity 2.0提供平台、Spark和搜索提供触达——这条链条上的每一个环节,谷歌都握有主动权。

  • AI编程公司Cognition融资10亿美元,估值250亿,Devin能不能打赢大厂?

    AI 编程赛道今天传来一笔让人咋舌的融资——Cognition,就是那个做了自主编程 Agent Devin 的公司,宣布完成超过 10 亿美元融资,投前估值 250 亿美元。

    Cognition CEO Scott Wu
    Cognition CEO Scott Wu(图片来源:TechCrunch)

    这个估值跳跃速度相当夸张。八个月前,也就是 2025 年 9 月,Cognition 刚完成 4 亿美元融资,投后估值 102 亿美元。不到一年,估值直接翻了一倍还多。

    投资人名单很豪华

    这轮融资由 Lux Capital 和 General Catalyst 领投,现有投资者 Founders Fund、8VC 等继续跟投,新进来的还有 Ribbit Capital、Atreides、Layer Global。

    这是顶级 VC 在用真金白银表达一个判断:独立的 AI 编程工具公司,还有很大的生存空间。过去一年,市场的主流叙事是”模型厂商会把一切都吃掉”——Anthropic 的 Claude Code、OpenAI 的 Codex、Google 的 Jules,这些大厂工具确实在快速蚕食市场。

    Cognition 去年还收购了 Windsurf 的剩余资产,现在说自己已经有奔驰、NASA、高盛、桑坦德银行这类大企业客户。过去六个月,Devin 的企业用户使用量每月增长 50%,年化收入运行率已达 4.92 亿美元。

    250 亿美元值不值?

    这个数字放在整个 AI 编程赛道里看,确实不便宜。但 VC 的逻辑大概是:如果 Devin 真的能在企业开发流程里站稳脚跟,这个市场的天花板还远得很。

    关键问题是,大厂的编程 Agent 和 Cognition 这类独立公司,到底会不会是零和游戏?从目前的客户名单看,Cognition 在啃企业市场这块硬骨头,而大厂工具更多是在吸引个人开发者和小团队。

    • Claude Code 和 Codex 的优势是和模型深度绑定,迭代快
    • Devin 的卖点是”自主完成更复杂的软件工程任务”,而不只是补全代码
    • 企业客户更在意数据安全、权限管控、审计日志,这是独立工具的机会

    不管怎样,250 亿美元的估值就这样摆在了桌面上。AI 编程这场仗,才刚刚开始。

  • Aider:45.3k Stars!终端AI结对编程工具,让Git与AI完美融合

    Aider:45.3k Stars!终端AI结对编程工具,让Git与AI完美融合

    📌 项目简介

    Aider

    Aider 是一款在终端中运行的AI结对编程工具,支持从零启动新项目或基于现有代码库进行开发。它不仅能理解整个代码库的结构,还能自动执行lint和测试,是开发者的AI编程利器!

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.8+
    • Git(Aider原生集成Git)
    • API密钥(Anthropic/OpenAI/DeepSeek等)

    快速安装步骤

    1. 安装Aider
      python -m pip install aider-chat
      aider
    2. 配置API密钥
      # 使用Claude 3.7 Sonnet
      export ANTHROPIC_API_KEY=your-key
      aider --model sonnet
      
      # 使用DeepSeek
      export DEEPSEEK_API_KEY=your-key
      aider --model deepseek
      
      # 使用GPT-4o
      export OPENAI_API_KEY=your-key
      aider --model gpt-4o
    3. 进入项目目录
      cd /path/to/your/project
      aider

    💡 核心功能

    1. 全代码库理解

    Aider能自动生成整个代码库的”地图”,理解项目结构,无论项目多大都能精准定位需要修改的文件。

    2. Git原生集成

    每次AI修改后,Aider都会自动生成合理的commit信息,你可以通过Git轻松diff、管理和回滚AI的修改。

    3. 多模态输入支持

    支持添加图片、网页到对话,提供视觉上下文、截图、参考文档等,让AI更准确理解你的需求。

    4. 自动校验与修复

    每次修改后自动执行代码lint和测试,如果检测到lint错误或测试失败,Aider会自动修复!

    5. 语音转代码

    支持语音输入需求,自动实现新功能、测试用例或Bug修复,编程效率翻倍!

    🚀 典型使用场景

    场景1:新项目从零启动

    想快速搭建一个新项目?只需在终端输入:

    $ aider
    Aider> 帮我创建一个Flask REST API,包含用户认证和JWT令牌

    Aider会自动生成项目结构、配置文件、路由和测试用例,并自动提交第一个commit!

    场景2:现有代码库的功能迭代

    在已有项目中添加新功能?Aider理解整个代码库:

    $ aider
    Aider> 在用户模型中添加一个"最后登录时间"字段,并更新相关API

    Aider会自动找到需要修改的文件,添加字段,更新迁移脚本,修改API响应,并运行测试确保一切正常!

    场景3:Bug修复与测试

    遇到Bug?让Aider帮你定位和修复:

    $ aider
    Aider> 修复用户登录时的502错误,并添加测试用例

    Aider会分析日志、定位问题、修复代码、添加测试,确保问题不再复现!

    🎯 推荐理由

    作为一名开发者,我一直在寻找能让AI真正融入编程工作流的工具。Aider是我用过的最实用的AI编程助手,原因如下:

    ✅ Git原生集成:不像其他工具那样”黑盒”修改,Aider的每次修改都有清晰的commit,你可以随时diff或回滚。

    ✅ 理解大型代码库:Aider会生成整个代码库的地图,即使是很复杂的项目,它也能精准定位需要修改的地方。

    ✅ 自动修复lint/测试错误:这是我最喜欢的功能!Aider修改代码后会自动运行lint和测试,如果有错误会自动修复,真正实现了”自动化编程”。

    ✅ 支持100+编程语言:无论你用Python、JavaScript、Rust、Go还是C++,Aider都能胜任。

    ✅ 多模态输入:可以添加图片、网页到对话,让AI更准确理解你的需求,这对前端开发特别有用!

    如果你想要一个真正能理解你的代码库、并与Git无缝集成的AI编程助手,Aider绝对值得一试!

    📥 下载地址

    官方资源

    快速安装

    # 安装Aider
    python -m pip install aider-chat
    
    # 使用Claude 3.7 Sonnet(推荐)
    export ANTHROPIC_API_KEY=your-key
    aider --model sonnet
    
    # 使用DeepSeek(性价比高)
    export DEEPSEEK_API_KEY=your-key
    aider --model deepseek
    
    # 使用GPT-4o
    export OPENAI_API_KEY=your-key
    aider --model gpt-4o

    #开源项目 #AI编程 #终端AI #Aider #GitHub热门 #AI Agent

  • agent-skills:45.4k Stars!Google工程师开源的AI编码生产级技能库,让AI输出工业级代码

    agent-skills:45.4k Stars!Google工程师开源的AI编码生产级技能库,让AI输出工业级代码

    agent-skills

    你有没有遇到过这种情况:让AI帮你写代码,它确实写出来了,但一测就挂,还没测试、没文档、没安全检查——因为它总是走「最短路径」,能跑就行。

    Google Cloud AI总监、AngularJS联创Addy Osmani也发现了这个问题,于是他在2026年2月开源了 agent-skills——一个把高级工程师开发软件时的完整工作流、质量门禁和最佳实践封装成可复用技能的工具包,让AI代理在开发全流程中都能遵循与生产环境一致的标准。

    📊 项目数据

    GitHub Stars:45.4k+ | 开源协议:MIT | 维护者:Addy Osmani(Google) | 适用工具:Claude Code、Cursor、Gemini CLI、Windsurf、Copilot 等


    📌 项目简介

    agent-skills 是一个面向AI编程代理的生产级工程技能集合,将资深工程师在开发软件时遵循的工作流、质量门禁和最佳实践编码为可复用的技能模块,让AI代理不再「能跑就行」,而是输出符合生产级质量标准的代码。项目覆盖从需求定义、计划拆解、迭代开发、测试验证、代码审查到上线部署的完整开发生命周期,并预置了可自动触发的专项技能。


    ⚙️ 安装要求与过程

    环境要求

    • 支持任意AI编程代理(Claude Code、Cursor、Gemini CLI、Windsurf、Kiro、Copilot等)
    • 部分技能需要配合对应MCP服务使用(如Chrome DevTools MCP)
    • 无额外依赖,技能文件为纯Markdown格式

    快速安装(以Claude Code为例)

    方式一:从市场安装(推荐)

    # 添加市场源
    /plugin marketplace add addyosmani/agent-skills
    # 安装技能包
    /plugin install agent-skills@addy-agent-skills

    方式二:本地克隆安装

    git clone https://github.com/addyosmani/agent-skills.git
    claude –plugin-dir /path/to/agent-skills

    其他工具(Cursor、Gemini CLI、Windsurf等)详见项目 docs/ 目录下的对应配置指南。


    ✨ 核心功能

    1
    23个细分技能模块,覆盖开发全生命周期

    从需求定义(/spec)、计划拆解(/plan)、增量开发(/build)、测试驱动(/test)、代码审查(/review)到上线部署(/ship),每个阶段都有对应的技能工作流,AI必须按步骤执行,不能跳过。

    2
    反合理化机制,防止AI走捷径

    每个技能都内置「常见借口反驳表」——比如AI想说「我之后再补测试」,技能会直接反驳并强制要求先写测试。验证要求明确到必须提供证据(测试通过截图、构建输出等),不允许「看起来没问题」这种模糊判断。

    3
    自动触发 + 斜杠命令双模式

    设计API时自动激活 api-and-interface-design 技能,构建UI时自动激活 frontend-ui-engineering 技能;同时也支持手动输入 /spec、/plan、/build、/test 等7个斜杠命令精准触发对应技能。

    4
    预配置专家代理角色,多维度审查

    内置 code-reviewer(高级工程师视角)、test-engineer(QA专家视角)、security-auditor(安全工程师视角)三个专家代理角色,可在关键节点自动调用,对代码进行多维度审查。


    🚀 典型使用场景

    场景一:让AI严格按照TDD流程开发新功能

    输入 /test 激活测试驱动开发技能,AI会严格遵循「红→绿→重构」流程,先写失败测试,再写最小实现,最后重构;测试金字塔比例强制为 80% 单元测试 / 15% 集成测试 / 5% E2E测试,确保测试覆盖全面而不冗余。

    场景二:上线前全自动代码审查与安全加固

    输入 /review 触发代码审查技能,AI会按五轴审查法(正确性、可读性、安全性、性能、可维护性)逐文件审查,变更控制在约100行以内;同时自动激活 security-and-hardening 技能,对照 OWASP Top 10 逐项检查,不通过不许合并。


    💡 推荐理由

    我一直觉得现在的AI编程工具最大的问题不是「写不出代码」,而是「写出来的代码不经过生产级流程」——没有需求文档、没有测试、没有安全审查,直接给你一个能跑的版本就完事。agent-skills 的本质,就是把 Google 级别的工程成熟度「编译」成了AI可以理解和执行的技能工作流。

    最让我印象深刻的是它的「反合理化机制」——AI 想偷懒的时候,技能会直接「怼回去」,要求提供证据而不是口头保证。这比任何 Prompt 技巧都更有效,因为它是在流程层面强制质量,而不是靠 AI 的「自觉」。

    如果你在用 Claude Code、Cursor 或其他AI编程工具,这个项目值得认真配置一套——它会让你AI助手输出的代码质量提升一个维度。


    📥 下载地址

    🌐 官方网站:https://github.com/addyosmani/agent-skills

    📦 GitHub仓库:https://github.com/addyosmani/agent-skills

    📚 配置文档:https://github.com/addyosmani/agent-skills/tree/main/docs

    💬 技能市场:https://agentskill.work/zh/skills/addyosmani/agent-skills

    📄 开源协议:MIT License(可自由使用、修改和分发)


    💡 小编注:

    这个项目背后的理念其实很深刻——AI编程工具的能力上限不仅仅取决于模型本身,更取决于我们给它的「工程上下文」。agent-skills 做的,就是把这些上下文系统化、可复用化。值得一提的是,Addy Osmani 同时也是热门项目 addyosmani/superpowers(第30期已介绍)的作者,两个项目一脉相承,建议搭配使用,效果更佳。

  • AutoGen – 微软开源的多智能体对话框架

    AutoGen – 微软开源的多智能体对话框架

    AutoGen Logo
    AutoGen – 多智能体AI协作框架

    📝 项目简介

    AutoGen 是微软研究院开源的事件驱动编程框架,专门用于构建可扩展的多智能体AI系统。它就像 AI Agent 世界的”交响乐团指挥”,让不同的 AI 智能体能够协同工作、互相对话,共同完成复杂的任务。无论你是想构建自动化的工作流程,还是研究多智能体协作,AutoGen 都能提供强大而灵活的解决方案。


    ⚙️ 安装要求和过程

    环境要求

    • Python 3.8 或更高版本
    • pip 包管理工具
    • (可选)Docker – 用于容器化代码执行
    • OpenAI API Key 或其他 LLM 服务访问权限

    快速安装步骤

    推荐使用 pip 安装指定版本,避免版本兼容问题:

    pip install autogen-agentchat~=0.2

    💡 提示:当前 0.2 版本稳定可用,0.4 稳定版也已发布,旧版本用户可参考迁移指南升级。


    💡 核心功能

    1. 低门槛构建多智能体对话应用

    AutoGen 大大简化了复杂 LLM 工作流的编排、自动化和优化。你只需要写少量代码,就能搭建起下一代 LLM 应用,同时最大化 LLM 的性能,弥补其固有缺陷。

    2. 支持多样化对话模式

    框架提供了可自定义、可对话的智能体,开发者可以自由调整对话自主性、智能体数量和对话拓扑结构。无论你需要确定性的工作流,还是动态的多智能体协作,都能找到合适的模式。

    3. 灵活的代码执行方式

    支持三种代码执行模式:无代码执行(纯文本对话)、本地命令行执行、Docker 容器执行。特别是 Docker 模式,可以在隔离环境中安全运行生成的代码,避免对本地环境造成污染。

    4. 全场景示例覆盖

    官方提供了不同复杂度、可直接运行的系统示例,覆盖多领域、多复杂度的应用场景。从简单的两智能体对话,到复杂的多专家联合决策系统,都有对应的参考实现。


    🎯 典型使用场景

    场景一:自动化数据分析与可视化

    假设你是一名分析师,需要快速分析两只股票(比如英伟达和特斯拉)年初至今的价格走势。使用 AutoGen,你可以让 UserProxyAgent 向 AssistantAgent 发起对话请求,AssistantAgent 会自动生成 Python 代码来获取股票数据、绘制图表,然后通过代码执行器运行代码,最终将生成的图表保存到文件。整个过程中,你不需要手动编写一行代码!

    场景二:多专家联合决策系统

    在复杂的业务场景中,单一 AI 可能难以做出全面准确的决策。使用 AutoGen,你可以创建多个具有不同专长的智能体(比如:数据分析师、行业专家、风险评估师),让它们通过对话协作,共同完成投资决策、医疗诊断、技术选型等复杂任务。每个智能体都可以调用不同的工具和 API,真正实现”三个臭皮匠,顶个诸葛亮”。

    场景三:AI Agent 研究与教学

    AutoGen 由微软研究院、宾夕法尼亚州立大学、华盛顿大学的合作研究支撑,是多智能体 AI 系统研究的理想平台。研究人员可以基于 AutoGen 快速验证新的对话模式、协作策略;教师可以用它制作生动的教学演示,让学生直观理解多智能体系统的工作原理。


    🌟 推荐理由

    为什么我强烈推荐 AutoGen?

    • 🏢 大厂背书,值得信赖:微软研究院主导开发,代码质量高,文档完善,社区活跃
    • 🚀 降低门槛,快速上手:相比 LangChain 等框架,AutoGen 的多智能体对话模式更直观,示例丰富,新手也能快速入门
    • 🛡️ 安全可控:支持 Docker 容器化执行代码,支持人工介入(human-in-the-loop),避免 AI 生成的危险代码直接运行
    • 🔧 高度灵活:可以自由定义智能体的行为、对话流程、工具调用,满足各种定制化需求
    • 📚 生态丰富:作为”智能体 AI 领域的 PyTorch”,AutoGen 正在成为多智能体系统的标准框架,未来潜力巨大

    我个人觉得,如果你对 AI Agent、多智能体系统、LLM 应用开发感兴趣,AutoGen 绝对是必学的框架之一。它不仅能帮你快速实现想法,还能让你深入理解多智能体协作的精髓。


    📥 下载地址


    本文介绍了 AutoGen 多智能体框架的核心特性和应用场景。如果你正在构建 AI Agent 系统,不妨试试这个强大的工具!

  • andrej-karpathy/skills:144.5k Stars!基于Karpathy编程哲学的Claude Code技能集合,让AI帮你避开编程陷阱

    andrej-karpathy/skills:144.5k Stars!基于Karpathy编程哲学的Claude Code技能集合,让AI帮你避开编程陷阱

    🎯 项目简介

    andrej-karpathy/skills 是一个基于Andrej Karpathy(前OpenAI创始成员、特斯拉AI前主管)总结的LLM编程陷阱而创建的Claude Code技能集合,拥有超过14.4万Stars,帮助AI编程助手避免常见错误,提升代码质量。


    💻 安装要求和过程

    环境要求

    • Claude Code 或兼容的AI编程助手
    • 支持技能导入功能

    快速安装

    # 克隆仓库
    git clone https://github.com/multica-ai/andrej-karpathy-skills.git
    
    # 进入目录
    cd andrej-karpathy-skills
    
    # 将 CLAUDE.md 文件复制到你的项目根目录
    # Claude Code 会自动读取该文件作为行为规则

    ✨ 核心功能

    1. 🎯 避免LLM编程陷阱:基于Karpathy总结的常见错误模式,帮助AI生成更可靠的代码
    2. 📝 最佳实践集成:内置经过验证的编程模式和架构决策
    3. 🔧 Claude Code优化:专门为Claude Code调优的技能集合
    4. 🚀 提升代码质量:减少调试时间,提高代码可维护性
    5. 📚 持续更新:跟随LLM能力演进,持续添加新的最佳实践

    🎨 典型使用场景

    场景1:AI辅助代码审查

    在代码审查阶段,让Claude Code加载这些技能,自动识别代码中的潜在问题,如性能陷阱、安全漏洞、反模式等。

    场景2:学习LLM编程

    对于刚开始使用AI辅助编程的开发者,这个项目是一个完美的”避坑指南”,帮助你理解LLM在编程时的常见失误。

    场景3:团队标准化

    在团队中统一配置这些技能,确保所有成员在使用AI编程助手时遵循相同的最佳实践。


    💡 推荐理由

    Andrej Karpathy作为深度学习领域的先驱,其编程哲学和对LLM的理解非常深刻。这个项目将他的经验转化为可执行的技能,让每个开发者都能受益于顶级专家的见解。

    特别适合:

    • 频繁使用Claude Code或其他AI编程助手的开发者
    • 希望提升AI生成代码质量的团队
    • 对LLM编程能力边界感兴趣的研究者

    这个项目最打动我的是其实用性——不是空洞的理论,而是可以直接提升日常编程效率的实战技巧。144k+的Stars数也证明了社区对这类实用资源的渴求。


    📥 下载地址


    如果你正在使用Claude Code或其他AI编程助手,强烈建议试试这个技能集合。它可能会改变你对AI辅助编程的认知!

  • 阿里千问Qwen3.7-Max发布:从对话模型到工程代理的关键一跃

    三个月连更三次,千问在争什么

    5月20日,阿里巴巴在杭州发布了千问新一代旗舰模型Qwen3.7-Max。如果只看标题,这像是一次常规的模型迭代——但从最近三个月的节奏来看,千问正在以不太常见的速度连续推出新版本。

    3月20日,Qwen3.5-Max-Preview亮相;4月20日,Qwen3.6-Max-Preview发布;5月20日,Qwen3.7-Max正式登场。三个月、三个大版本,这个节奏即便放在全球大模型厂商里也不算慢。背后反映的是一个明确判断:模型竞争的重点正在转移,从”谁的参数大、榜单分数高”,转向”模型能不能真正进入工作流,稳定执行复杂任务”。

    Agent能力成了新的主战场

    Qwen3.7-Max延续了千问3.x系列的一个明显转向:强化Agent能力。这不是一个抽象的方向——具体体现在编程、长上下文、工具调用、跨框架兼容和长程任务处理这几个维度上。

    在第三方机构Arena的全球大模型盲测总榜中,Qwen3.7-Max超过了Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与GPT、Claude、Gemini等国际顶尖模型接近,位列国产模型第一。

    Qwen3.7-Max在MCP-Atlas、MCP-Mark、SkillBench等现实能力测试中表现优异,超过GLM-5.1、Kimi-K2.6等模型,创下国产模型新高。

    编程智能体能力的提升尤为明显。在SWE-Pro、SWE-Multilingual、Terminal Bench 2.0-Terminus等测评中,Qwen3.7-Max较Qwen3.6-Plus有大幅提升,并超过了DeepSeek-v4-pro-Max、Claude-Opus4.6、Kimi-K2.6等模型。

    一次完整的工程任务:35小时、上千次工具调用

    阿里内部做了一个挺有说服力的测试:把千问3.7放到一个陌生的新硬件平台上(平头哥真武M890),任务是优化一个生产级注意力内核算子。

    模型没有现成的性能profile,没有硬件文档,也没有示例实现——只拿到了任务描述、SGLang+Triton参考代码和评测脚本。在这个环境中,千问3.7连续工作了35小时,执行了数百次内核评估和上千次工具调用,完成了代码编写、编译、性能分析和迭代优化的完整流程。最终,内核速度在参考实现基础上提升了一个数量级。

    更值得注意的细节是:在连续运行30小时后,模型仍然能发现新的优化空间。这说明它并不是在完成一次性的指令执行,而是在较长时间内保持了目标感,能根据反馈调整路径。

    这个测试背后的意图很明显:当大模型具备较强的推理、编程和工具调用能力,并被放入真实的工程环境中,它有机会承担过去需要专业工程师长时间推进的复杂任务。

    阿里的真正优势:场景和基础设施

    千问的特殊性在于,阿里拥有大量真实的业务和基础设施场景。芯片(平头哥)、云(阿里云)、数据库、电商、物流、支付、出行、本地生活——这些都可以为Agent提供复杂的任务环境。场景既能测试模型,也能为模型迭代提供反馈数据。

    2026年3月,阿里成立了Alibaba Token Hub(ATH),由吴泳铭直接负责。这个调整的背景是:企业使用AI的方式正在变化。过去买的是算力时长,现在消耗的是Token——模型处理任务、生成内容、调用工具、完成工作的能力,最终都会体现在Token使用上。

    公开信息显示,阿里AI模型和应用服务ARR已突破80亿元,百炼MaaS开发平台客户数截至2026年3月同比增长8倍,覆盖电商、金融、制造等多个行业。

    在这个布局里,Qwen3.7-Max不只是一次模型能力更新,而是阿里把”芯—云—模型—推理”这条链路进一步打通的一个节点。模型越强、推理越快、成本越低,Agent越容易在企业中规模化应用——这个逻辑决定了下一阶段大模型竞争的重心。


  • OpenHands:74.3k Stars!AI驱动的开发神器,从命令行到企业级部署全覆盖

    OpenHands:74.3k Stars!AI驱动的开发神器,从命令行到企业级部署全覆盖

    🤖 项目简介

    OpenHands 是一个聚焦AI驱动开发的开源项目,提供了可组合的Python软件代理SDK,支持本地运行或大规模云端分布式部署。它集成了多种使用形态——CLI命令行、本地GUI界面、云端托管服务以及企业级私有化部署,可以对接Claude、GPT等多种大语言模型,还能集成Slack、Jira、Linear等常用开发工具。

    简单来说,OpenHands 就是你的AI编程助手全家桶——想要命令行交互?有CLI。想要图形界面?有Local GUI。想要团队协同?有Cloud版。想要私有部署?有Enterprise版。一个项目,四种打开方式。


    🔧 安装要求和过程

    环境要求

    • Python环境:项目核心使用Python(占比62.5%),使用Poetry或uv作为包管理工具
    • Node.js环境:前端部分依赖Node.js生态(包含.nvmrc指定版本)
    • Docker:支持Docker部署(包含docker-compose.yml配置)
    • Kubernetes:企业版支持K8s集群部署

    快速安装(本地开发)

    # 克隆仓库
    git clone https://github.com/All-Hands-AI/OpenHands.git
    cd OpenHands
    
    # 安装依赖(使用uv)
    uv pip install -e ".[dev]"
    
    # 启动本地开发服务器
    make run

    ✨ 核心功能

    🛠️ Software Agent SDK

    底层核心Python库,支持代码定义代理,可本地或云端大规模运行,是所有上层能力的基础。

    💻 CLI命令行模式

    交互逻辑类似Claude Code、Codex,可通过命令行直接对话,对接各类LLM模型。

    🖥️ Local GUI

    本地运行的代理图形界面,附带REST API和单页React应用,交互体验类似Devin、Jules。

    ☁️ Cloud云端服务

    托管式云端服务,支持免费使用Minimax模型,具备多用户协作、RBAC权限管理。


    🚀 典型使用场景

    场景一:个人开发者——AI编程助手

    通过CLI模式,开发者可以在终端直接与AI对话,完成代码编写、调试、重构等任务。类似Claude Code的使用体验,但OpenHands提供了更完整的本地部署能力,数据完全私有。

    场景二:企业团队——私有化AI开发平台

    通过Enterprise版本,企业可以在私有VPC内部署OpenHands,对接内部代码库、Jira、Slack等工具,实现安全的AI辅助开发。支持Kubernetes集群部署,具备完整的权限管理和审计能力。

    场景三:AI研究——可复现的实验环境

    OpenHands提供了评估基础设施和Chrome浏览器扩展,研究者可以方便地进行AI编程能力评估、多模型对比实验,且所有实验环境可完整复现。


    💡 推荐理由

    作为一个AI编程工具的深度用户,我为什么推荐OpenHands?

    • 完整的技术栈覆盖:从个人CLI到企业私有部署,从本地开发到云端协作,OpenHands提供了全链条的解决方案。
    • 真正开源:核心代码采用MIT协议,你可以自由修改、部署,不用担心厂商锁定。
    • 活跃社区:74.3k Stars、9.4k Forks,社区非常活跃,问题和PR响应速度快。
    • 多模型支持:不绑定特定大模型厂商,Claude、GPT、本地Ollama都可以对接。

    如果你正在寻找一个可私有部署、功能完整、社区活跃的AI编程助手,OpenHands绝对值得一试。特别是对于重视数据隐私的团队,它的本地部署能力是最大亮点。


    📥 下载地址


    📌 本文由 WorkBuddy AI 自动采集撰写,开源项目信息来自GitHub官方仓库。