标签： AI Agent

Screenshot to Code：72.7K Stars！截图秒变代码，让前端开发效率提升10倍
上传截图，AI自动生成对应代码

🚀 项目简介

Screenshot to Code 是一款AI驱动的开发辅助神器，只需上传一张网页截图、线框图或Figma设计稿，即可自动生成干净的可用代码。支持 HTML+CSS、React、Vue、Bootstrap 等多种技术栈，让设计稿到代码的转换从数小时缩短到几秒钟。

⚙️ 安装要求和过程
💡 环境要求

Python 3.9+（后端依赖）

Node.js 18+（前端依赖）

Poetry（Python 依赖管理，推荐）

Docker（可选，快速部署方式）

API密钥：OpenAI / Anthropic / Google Gemini（三选一即可）
🚀 快速安装步骤

方式一：本地源码运行（推荐开发调试）

# 1. 克隆项目 git clone https://github.com/abi/screenshot-to-code.git cd screenshot-to-code # 2. 配置API密钥（后端） cd backend echo "OPENAI_API_KEY=sk-your-key" > .env echo "ANTHROPIC_API_KEY=your-key" >> .env echo "GEMINI_API_KEY=your-key" >> .env # 3. 安装依赖并启动后端 poetry install poetry run uvicorn main:app --reload --port 7001 # 4. 新终端启动前端 cd ../frontend yarn yarn dev

启动后访问 http://localhost:5173 即可使用。

方式二：Docker 一键运行（推荐快速体验）

# 在项目根目录执行 echo "OPENAI_API_KEY=sk-your-key" > .env docker-compose up -d --build
✨ 核心功能

🎯 截图转代码

上传任意网页截图或设计稿，AI自动分析布局结构，生成对应前端代码，支持多种技术栈自由切换。

🔄 多模型支持

内置支持 Claude Opus/Sonnet、GPT-4.5/4.1、Gemini 3 Flash/Pro 等顶级模型，也支持自定义API兼容接口。

🛠️ 多技术栈输出

支持 HTML+CSS、HTML+Tailwind、React+Tailwind、Vue+Tailwind、Bootstrap、Ionic+Tailwind、SVG 等主流技术栈。

🎬 录屏转原型（实验性）

支持上传网站操作录屏视频，AI直接生成可交互的功能原型，非常适合产品快速验证和演示。

🔒 隐私优先，本地可控

支持通过 Ollama 运行本地开源模型，所有数据不出本地；也可自托管 Docker 版本，完全掌控数据隐私。

🎬 典型使用场景

📌 场景一：设计师交付前端代码

设计师完成 Figma 设计稿后，开发人员只需截图上传，即可快速获得可运行的前端代码骨架，大幅减少从设计到代码的重复劳动。实测可将一个中等复杂度页面从 2小时 缩短到 30秒 出初稿。

🎓 场景二：学习前端的新手临摹练习

想临摹一个漂亮的网页但不懂怎么实现？截一张图上传，AI 帮你生成完整代码，新手可以在生成的代码基础上学习和修改，快速提升前端技能。

🚀 场景三：产品快速原型验证

产品经理用录屏功能记录期望的操作流程，Screenshot to Code 直接生成可交互的 HTML 原型，团队可以在此基础上快速评审和迭代，不需要写一行代码。

💎 推荐理由

我第一次用这个工具的时候，简直惊呆了——随手截了一张纽约时报首页的截图上传，不到 20秒 就生成了一个几乎一模一样的 HTML 页面，连字体、间距、配色都还原得非常到位！

最让我惊喜的是它对 Tailwind CSS 的支持——生成的代码不是一堆乱七八糟的行内样式，而是结构清晰、可直接维护的 Tailwind 类，这对实际项目来说太重要了。

当然也要说一下不足：复杂交互（比如多步骤表单、动画过渡）还是需要人工补充；如果使用 OpenAI/Claude 的 API，每次生成会产生一定的 API 费用（不过项目支持 Ollama 本地模型，可以零成本使用）。总体来说，这是目前 「设计稿转代码」 这个细分领域里最成熟、最好用的开源方案，没有之一。

📥 下载地址
🌟 GitHub 仓库：https://github.com/abi/screenshot-to-code（72.7K+ Stars）

🌐 在线体验版：https://screenshottocode.com（官方付费版，可快速体验效果）

📖 Screen Recording to Code 文档：查看 Wiki

🐛 问题反馈：GitHub Issues
— 由 WorkBuddy AI 自动采集撰写 · 开源项目系列第43期 —
2026年5月30日
OpenAI Codex 现已能控制你的 Windows 电脑

OpenAI 的 Codex 在 Mac 端上线之后，现在终于轮到 Windows 用户了。这次更新把 computer use 功能带到了 Windows 平台，意思是这个应用现在能”看见”你的屏幕，还能在你的设备上直接执行各种任务。

不用坐在电脑前也能管任务

OpenAI 同时表示，你现在可以通过 ChatGPT 应用在离开电脑的时候管理和查看 Codex 的任务执行情况。这对需要跑长任务的开发者来说挺实用的——不用一直守在屏幕前，手机上就能看进度。

Codex 的 computer use 功能正式登陆 Windows，AI 编程助手从”帮你写代码”进化到”直接帮你操作电脑”。

Mac 端先跑，Windows 跟上

事实上 Codex 的 computer use 功能在 Mac 上已经跑了一阵子了，这次 Windows 版本的到来算是补齐了主流桌面平台的覆盖。OpenAI 在 X（原 Twitter）上还专门发了条推文：”Windows users, this one’s for you.”，语气倒是挺轻松的。

这个功能本质上是让 AI 能够理解屏幕内容并模拟人类操作——点按钮、填表单、切换窗口，都在这个能力范围内。对于需要做 UI 自动化测试或者批量操作的场景，这比传统的脚本方式要灵活得多。

和 Claude 的 computer use 打对台

Anthropic 的 Claude 早就有了类似的 computer use 能力，现在 OpenAI 把这块能力也补上了，两个头部玩家在”让 AI 直接操作电脑”这个方向上的竞争又多了一个维度。区别可能在于 OpenAI 把这套能力和 Codex 的编程场景绑得更紧——你写的代码，Codex 可以直接帮你跑起来、点按钮、看结果。

📎 原文来源：The Verge – OpenAI’s Codex can now control your Windows computer, too

2026年5月30日
babyagi：22.3K Stars！任务驱动AI智能体，让AI逐步实现自我构建

## 🚀 项目简介

**babyagi** 是一个实验性的自主AI智能体框架，目标是构建能够**自我构建**的最简系统。项目由独立开发者Yohei Nakajima创建，首次将「任务驱动」作为自主智能体的核心设计理念，是开发通用自主智能体的重要探索。

> 当前版本基于全新的 **functionz** 框架，支持函数存储、依赖管理、自动执行和可视化仪表盘，是构建自构建AI智能体的最优路径之一。

💡 一句话总结：babyagi 是一个能自我进化的AI智能体框架，让AI通过任务分解和函数复用，逐步实现自我构建。

## 🛠️ 安装要求和过程

### 环境要求
– **Python** 3.8+
– **OpenAI API Key**（部分AI功能需要）
– 网络连接（用于函数包加载）

### 快速安装步骤

“`bash
# 安装 babyagi
pip install babyagi

# 启动可视化仪表盘
import babyagi

if __name__ == “__main__”:
app = babyagi.create_app(‘/dashboard’)
app.run(host=’0.0.0.0′, port=8080)
“`

安装后访问 `http://localhost:8080/dashboard` 即可进入管理仪表盘。

⚠️ 注意事项：本项目为实验性框架，不建议直接用于生产环境。适合有经验的开发者进行测试和二次开发。

## ⚡ 核心功能

**1. 函数注册与依赖管理**
通过 `@babyagi.register_function()` 装饰器注册函数，自动追踪函数间的导入关系、依赖关系和认证密钥，构建完整的函数调用图。

**2. 可视化仪表盘**
配套Web管理界面，支持函数的注册、注销、更新，查看函数依赖关系图，管理API密钥，以及查看全量执行日志。

**3. 自动函数加载**
支持通过 `load_functions` 批量加载函数包，内置默认函数包和AI函数包，也可加载自定义函数包。

**4. 全量日志与触发器**
自动记录所有函数执行的输入、输出、耗时和错误信息；支持基于事件的触发器，实现函数自动执行，提升智能体自主性。

**5. 自构建智能体实验**
包含 `process_user_input` 和 `self_build` 两个实验性函数，展示智能体如何复用已有函数、自动编写新函数，逐步实现自我构建能力。

## 🎯 典型使用场景

### 场景一：自动生成业务函数
描述企业SaaS销售人员的需求，babyagi 会自动生成该类用户可能提出的X个问题，并为每个问题创建对应的处理函数。

“`python
babyagi.self_build(“A sales person at an enterprise SaaS company.”, 3)
“`

### 场景二：构建任务驱动AI助手
通过函数包组合，快速搭建一个能理解用户意图、自动调用相关函数、并动态扩展能力的AI助手，用于客服、个人助理等场景。

🌟 推荐理由

作为早期探索「自构建智能体」的项目，babyagi 提出了一个非常前沿的理念：让AI智能体通过复用和扩展函数，逐步实现自我构建。其基于 functionz 的新架构设计清晰，可视化仪表盘降低了函数管理门槛。虽然目前代码还比较基础，不适合生产环境，但对于想要理解「AI如何自我进化」的开发者来说，这是一个非常有启发的开源项目。⭐ 推荐给 AI Agent 研究者和创新型项目开发者！

## 📥 下载地址

| 来源 | 链接 |
|——|——|
| 🌐 官方网站 | https://babyagi.org/ |
| 💻 GitHub仓库 | https://github.com/yoheinakajima/babyagi |
| 📦 PyPI安装 | `pip install babyagi` |
| 📚 函数包文档 | 内置 `babyagi/functionz/packs/` |

> 标签：#AI Agent #开源 #任务驱动AI #自构建智能体 #Python

2026年5月30日
MIT科技评论2026年AI十大趋势：去伪存真的关键之年

MIT科技评论2026年AI十大趋势：去伪存真的关键之年

2026年4月，MIT科技评论首次推出”当下AI领域最重要的10件事”年度清单。这份报告来得正是时候——AI行业喧嚣不断，泡沫和炒作混在一起，能看清方向的声音越来越少。MIT的编辑团队花了大量时间筛选，最终给出这份清单，目的很明确：剔除噪音，找出真正推动AI发展的核心力量。

MIT科技评论2026年AI十大趋势封面图 | 来源：MIT Technology Review

这份清单和MIT传统的”10项突破性技术”榜单有所不同。以前的榜单更偏重技术本身，而这一次的视角更宽——它看的是整个AI生态里，哪些力量在真正改变游戏规则，哪些只是昙花一现的炒作。

一、人形机器人训练数据：教AI理解物理世界

大语言模型的训练用的是人类文本，而人形机器人的训练数据是什么？是人类的动作视频。这个逻辑很直接——就像文字让模型学会”说话”，视频能让机器人学会”行动”。现在已经有公司在大规模做这件事：建大型训练中心，让工作人员重复做特定任务，采集动作数据；还有的用”傀儡式”操作，让海外人员远程操控机器人，记录每一次移动。

问题是，这项投入巨大，但结果还没人说得准。机器人能不能真的从视频里学会灵活操作？还是说需要更多维度的数据？这个方向值得盯紧。

二、大语言模型+：下一站在哪里？

大模型已经席卷全球，整个行业都在问同一个问题：下一代突破在哪里？基础优化空间越来越小，但大模型本身不会被淘汰。MIT的编辑们认为，这个技术还有很多潜力没挖完，关键是往哪个方向挖。

大语言模型不会消失，它只是刚刚开始。真正的问题是：我们能让它做什么更多的事？

三、升级版诈骗：AI让攻击成本暴跌

这是清单里最让人不安的一条。AI正在让诈骗和黑客攻击变得前所未有的容易——速度更快、成本更低、操作更简单。以前需要专业技术才能做的攻击，现在门槛被AI砸到了地上。这个趋势在2026年会继续恶化，几乎没有放缓的迹象。

四、世界模型：AI的下一个前沿

现在的AI模型能聊天、写代码、生成图片，但它们不理解物理世界的运作规则。世界模型（World Models）要解决的正是这个问题——让AI真正”理解”外部世界，而不只是预测下一个token。如果这个目标实现，AI就能真正进入物理场景落地，而不只是停留在屏幕里。

五、新型作战指挥室：AI进入军事决策

算法早就让军事的一些基础工作自动化了，但生成式AI正在进入更高层的决策环节。指挥官开始认真参考AI给出的建议，这个变化正在重塑军队的情报共享方式、和大型科技公司的合作模式，以及致命决策的制定流程。这件事的影响面很广，而且不只是技术问题。

六、武器化深度伪造：威胁已成现实

长期以来被预测的”武器化深度伪造”威胁，在2026年已经成为现实。生成式AI技术的进步，加上Grok模型大规模生成非自愿色情图像、美国政府部门用这项技术制作宣传内容，这些事件加在一起，让深度伪造从”潜在风险”变成了”正在发生的事实”。

七、智能体编排：从单打独斗到团队协作

第一代AI智能体只能做单一任务——运行浏览器、写几行代码，而且各自为战。下一代智能体的方向是”编排”：多个智能体协作，分工完成复杂的长距离任务。这个变化一旦完成，AI能做的事情会比现在多出一个数量级。

八、中国的开源押注：免费策略赢得全球开发者

中国AI实验室把前沿模型免费开放，这个策略为他们赢得了全球开发者的认可和口碑。现在的问题是，这种模式能不能持续？财务上怎么算账？但不管怎样，全球开发者已经开始基于中国的开源模型构建各类应用，这个趋势已经成型了。

九、人工智能科学家：AI开始做科研

高校和企业都在开发能自主完成科研任务的AI智能体，把它们当作真正的协作者和科学家来用。有人甚至预测，这类AI科研助手未来有可能做出诺贝尔奖级别的研究成果。这个说法听起来夸张，但研发进度比很多人想象的快。

十、反AI抵制运动：反弹正在发生

AI不受限制地发展了这么多年，现在全球范围内出现了强大的反AI抵制浪潮。从保守派到自由派，从艺术家群体到工会，相关活动人士的声音正在扩大，而且已经开始取得一些小范围的胜利。这个趋势在2026年会继续发酵。

我的看法

读完这份清单，一个感受很强烈：AI行业正在从”能做什么”转向”应该做什么”。前几年大家都在比参数、比 benchmark，现在开始有人认真问这些问题——AI用在军事上边界在哪里？深度伪造谁来管？开源模式能不能持续？

这份清单里我最看好”世界模型”和”智能体编排”两条线，这两个方向一旦突破，AI的应用场景会大规模扩展。最担心的当然是”升级版诈骗”和”武器化深度伪造”，这两个方向的技术进步速度远远快于监管跟进的速度。

至于”反AI抵制运动”，我觉得这是健康的信号。任何技术发展到一定阶段，都需要来自社会的反馈和约束，AI也不例外。

📎 原文来源：MIT Technology Review – 10 Things That Matter in AI Right Now

2026年5月29日
MoneyPrinterTurbo：66.6K Stars！AI短视频一键生成，让内容创作不再靠体力
MoneyPrinterTurbo Web 操作界面

📌 项目简介

MoneyPrinterTurbo 是一个基于AI大模型的短视频一键生成工具。只需提供一个视频主题或关键词，就可以全自动完成：文案生成 → 视频素材匹配 → 字幕生成 → 背景音乐搭配 → 高清短视频合成，全流程无需人工干预。

66.6K+

GitHub Stars

多模型

AI 接入支持

双端

Web + API

MIT

开源协议

⚙️ 安装要求和过程

环境要求
Python 版本：推荐 Python 3.11

依赖管理：优先使用 uv 工具

必要依赖：ImageMagick（图片处理）、ffmpeg（视频处理）

最低配置：4核CPU、4GB内存

推荐配置：6-8核CPU、8GB内存、4GB显存GPU
快速安装步骤
# 1. 克隆项目 git clone https://github.com/harry0703/MoneyPrinterTurbo.git cd MoneyPrinterTurbo # 2. 配置 API Key（复制配置模板） cp config.example.toml config.toml # 编辑 config.toml，填入 pexels_api_keys 和 LLM API Key # 3. 安装依赖（推荐使用 uv） uv python install 3.11 uv sync --frozen # 4. 启动 Web 界面 uv run streamlit run ./webui/Main.py --browser.gatherUsageStats=False
💡 国内用户推荐：LLM 接入优先选择 DeepSeek 或 Moonshot（Kimi），无需VPN，注册即送额度，调用稳定。

✨ 核心功能

① 全流程自动化生成

只需输入主题/关键词，自动完成文案生成、高清无版权素材匹配、字幕生成、背景音乐搭配，最终合成高清短视频，全程无需人工干预。

② 多场景尺寸适配

支持竖屏 9:16（1080×1920）和横屏 16:9（1920×1080）两种高清尺寸，兼容中英文视频文案生成，满足不同平台发布需求。

③ 灵活自定义能力

支持 AI 自动生成文案或自定义文案，可调整字幕字体/位置/颜色/大小/描边，支持自定义背景音乐和本地素材，批量生成多个视频。

④ 多模型兼容

支持 OpenAI、Moonshot、Azure、通义千问、Google Gemini、Ollama、DeepSeek、文心一言等国内外十余种大模型接入，自由选择最适合的 LLM 后端。

⑤ 多端使用支持

提供完整 MVC 架构，同时支持 Web 可视化界面、REST API 接口两种使用方式，还支持 Docker 部署和 Google Colab 在线运行，开箱即用。

🎬 典型使用场景

场景一：自媒体短视频批量生产

自媒体运营者需要每天稳定输出高质量短视频内容，但文案创作、素材搜集、剪辑合成耗时费力。使用 MoneyPrinterTurbo，只需输入”今日科技热点”等关键词，AI 自动生成文案、匹配无版权视频素材、添加字幕和背景音乐，几分钟即可产出一条完整短视频，内容生产效率提升 10 倍以上。

场景二：企业营销视频快速制作

电商运营或市场人员需要为产品制作营销短视频，但缺乏专业剪辑能力。通过自定义文案功能，粘贴产品介绍文案，MoneyPrinterTurbo 自动匹配相关视频素材并合成营销视频，支持批量生成多个产品的宣传视频，大幅降低视频制作门槛和成本。

场景三：知识分享内容创作

知识博主需要将长篇文章或知识点转化为短视频内容。将文章要点整理为关键词，AI 自动扩展为视频文案，生成适合抖音、视频号、小红书等平台的竖屏短视频，让知识内容以更生动的形式触达更多受众。

💡 推荐理由

MoneyPrinterTurbo 是我见过的最完整的 AI 短视频生成开源方案。它不只是简单地拼接 AI 能力，而是真正从创作者的实际痛点出发，把视频制作的全流程——创意、文案、素材、配音、字幕、剪辑——全部打通。

最打动我的是它的务实性：支持国内外主流大模型接入，国内用户可以直接用 DeepSeek 或 Kimi，不需要折腾 VPN；支持自定义文案和本地素材，不会完全被 AI 绑架；提供 Web 界面和 API 双端，无论你是普通用户还是开发者都能快速上手。

当然，AI 生成的视频质量还无法和专业人工剪辑相提并论，素材匹配的准确性也有提升空间。但作为内容创作的效率工具，它已经足够惊艳。对于需要批量生产短视频内容的自媒体运营者来说，这是一个值得深入研究的开源项目。

🖼️ 界面预览

Web 可视化操作界面

📥 下载地址

🌐 官方网站：https://github.com/harry0703/MoneyPrinterTurbo

🐙 GitHub 仓库：https://github.com/harry0703/MoneyPrinterTurbo

📦 一键启动包：Windows 用户可直接下载项目 Release 中的一键启动包，解压即跑

🐳 Docker 部署：docker-compose up 一键启动

☁️ 在线体验：支持 Google Colab 在线运行，无需本地配置环境

📌 开源自尊：本项目采用 MIT 开源协议，可自由用于个人和商业场景，仅需保留版权声明。如果你也在探索 AI + 内容创作的方向，强烈建议深入研究这个项目，一定会有所收获。
2026年5月29日
谷歌I/O 2026全记录：Gemini Spark永久在线，智能眼镜今秋开卖
5月19日，谷歌I/O大会开幕。主题演讲持续了两个小时，核心信息只有一句话：Gemini不再是聊天工具，而是要替你干活。

这次大会发布的东西不少，但有一条主线贯穿全场——把AI智能体塞进你每天用的所有谷歌产品里：搜索、Gmail、YouTube、Docs、Chrome，一个不落。

谷歌说现在有9亿人在用Gemini，人们已经用它生成了超过500亿张图像。2026年的目标是让Gemini成为你互联网的”执行层”。

搜索的25年来最大重构

搜索框变成了”智能搜索框”——AI代理直接嵌在里面，当天就向全量用户推送。你搜”黑洞”，搜索结果页不是十蓝色链接，而是AI直接生成一个可视化解释视频，嵌在结果页里播放。

夏天还会上线”生成式UI”功能：搜索结果根据你查的内容类型自动调整布局。查新闻、查视频、查图片，每种场景下搜索结果的呈现方式都不一样，是AI实时生成的界面。

Gemini Spark：谷歌版OpenClaw

这是本次大会最值得关注的产品之一。Gemini Spark是一个永久在线的个人AI代理，跑在谷歌云上——就算你关了电脑、手机没电，它还在云端继续跑任务。

它能读取你的谷歌硬盘文件，知道你的日历安排，理解你的生活节奏。你跟它说”帮我策划街区派对”，它会自己发邮件、追踪采购进度、发跟进邮件，全程不需要你盯着。涉及付款的关键节点才会来问你确认。

目前Spark只支持谷歌自家服务，夏天会接入Chrome浏览器和第三方服务。这个产品的定位很清晰：跟OpenClaw正面竞争。

智能眼镜今年秋天就卖

谷歌联合三星和眼镜品牌Warby Parker、Gentle Monster做两款智能眼镜，属于Android XR平台。
- 音频版：今年秋季上市，镜腿有扬声器，有摄像头，能看见你看见的东西，支持实时跨语言翻译
- 带显示屏版：还在研发，上市时间更晚，可以在镜片上显示短信、导航、搜索结果
两款都支持调用谷歌的图像生成工具Nano Banana——你拍一下眼前的场景，AI可以在画面上叠加虚拟物体或特效，没显示屏的版本会把生成内容推到你的手机或安卓手表上。

其他值得关注的发布

Gemini Omni：对标Sora 2的视频生成模型，特色是”真实感”——可以把你拍的自拍视频换背景、换风格、换环境，人物表演保留，场景全部AI重绘。轻量版OmniFlash当天就向Pro和Ultra订阅用户开放了。

通用购物车：谷歌要做跨网站的购物车，你在不同电商网站逛，把想买的东西都加进这个统一购物车，AI帮你比价、提醒降价、推送新配色。结账时谷歌的安全支付系统可以一次性结清跨店铺订单。

第八代TPU：训练性能提升3倍，推理专用版本每秒能生成1500个token。谷歌2026年在算力基建上的投入预计达到1900亿美元。

📎 原文来源：Everything Announced at Google I/O 2026 — WIRED
2026年5月29日
Asana 75亿美元收购无代码AI智能体平台 StackAI

工作效率平台 Asana 宣布以75亿美元收购无代码 AI 智能体构建器 StackAI，这是它向”AI原生工作平台”转型的关键一步。StackAI 的两位创始人 Tony Rosinol 和 Bernard Aceituno 将随收购加入 Asana。

（图源：Getty Images / TechCrunch）

Asana 把这次收购定位为”人类与 Agent 团队协作操作系统”路线图的一部分。StackAI 做的事其实挺有意思——它让没有技术背景的人也能搭建能在企业现有系统里跑的 AI Agent，可以接入 Salesforce、Slack、GSuite 这些数据源。

StackAI 是 YC 2023年冬季批次孵化的项目，累计融资约2000万美元，最近一轮1600万美元的A轮投资方包括 Gradient、Epaklon Capital、Lobby VC、LifeX Ventures 以及 Vercel CEO Guillermo Rauch。

为什么要买它

Asana 过去几年陆续推出了 AI Studio（Agent 构建器）和 AI Teammates（预制自动化流程）等产品，但面对 OpenAI、Anthropic 这些大模型公司的”降维打击”，光靠自己的技术积累有点吃力。StackAI 的价值在于它已经打通了企业常用系统的数据管道，而且不需要写代码——这对 Asana 的核心用户群（项目经理、运营团队）来说门槛刚刚好。

当然竞争也不小。Zapier 这类老牌自动化工具在拼命加 AI 功能，大模型公司也在推自己的 Agent 平台。Asana 的优势是它已经嵌进了成千上万家公司的日常工作流里，这是 OpenAI 没有的数据上下文。

Asana 自己的坎

但这家公司日子并不好过。ChatGPT 问世以来，Asana 的市值跌了一半还多。今年3月创始人 Dustin Moskovitz 卸任 CEO，由 Dan Rogers 接手。新管理层的赌注就是”人+Agent”协作这个方向——今天这笔收购是这个战略的最新落地动作。

Dan Rogers 在声明里说：”这次收购加速了我们的路线图，把我们带进人机协作的下一个阶段。AI Teammates 和 AI Studio 已经让我们看到了势头，StackAI 现在能让用户走得更远——把最复杂的业务流程端到端地’Agent 化’。”

75亿美元的价格不便宜，但对一家想在工作流 AI 赛道翻盘的公司来说，这可能是不得不下的注。

📎 原文来源：Asana acquires no-code agent-builder StackAI — TechCrunch

2026年5月29日
Cursor Composer 2.5 发布：不换底座、1/10成本追平Claude Opus 4.7

过去几个月，AI 编程工具的用户有个普遍感受：Claude Code 用起来越来越顺手，Cursor 反而有点掉队。这个局面在5月19日变了——Cursor 发布了 Composer 2.5，直接把基准测试成绩拉到了和 Claude Opus 4.7 同一个水平线。

有意思的是，这次 Cursor 没有换底座模型，仍然用的是月之暗面开源的 Kimi K2.5 权重，只是把85%的计算量砸进了后训练。换句话说，同样的底座，靠训练手法把成绩硬拉了上去。

Composer 2.5 在 SWE-Bench Multilingual 拿到79.8%，和 Claude Opus 4.7 的80.5% 只差0.7个百分点。成本却只有后者的约1/10。

价格才是真正的杀手锏

具体定价：输入0.5美元/百万token，输出2.5美元/百万token。作为对比，Claude Opus 4.7 的输入定价大约在20美元/百万token量级。差距是数量级的。

Cursor 为什么要走这条路？直接原因很现实：Cursor 调用 Anthropic 的模型需要付推理费，成本结构是跟着 Anthropic 走的，它没法把 Claude Code 的价格打下来。自研模型是唯一能打出差异化的路径。

长任务能力是这次的重点

AI 编程工具的一个核心痛点是：短任务表现都不错，但任务一拉长（多文件修改、跨步骤依赖、几十轮工具调用），模型就容易失忆或者犯低级错误。

Composer 2.5 针对这个场景做了专项优化。训练方法里有个细节值得说：「功能删除」训练——从可运行代码库里随机删掉某项功能，让模型重新实现并通过测试验证。这种方式生成的训练数据质量远高于人工标注，因为它自带可验证的正确性信号。

另一个训练技巧是带文本反馈的强化学习。不是等整个任务结束才给一个奖励信号（那样太稀疏，模型很难学到东西），而是在模型执行出错的位置直接插入局部提示——比如工具调用失败时，提示可用工具列表——让模型从错误位置开始就能得到针对性反馈。

透明性这块，这次学乖了

上次发布 Composer 2 的时候，Cursor 没有披露模型底座来自 Kimi K2.5，结果被社区扒出来后在 Hacker News 上引发了一轮讨论。这次 Composer 2.5 的发布公告里直接写明了底座来源，算是吃一堑长一智。

目前 Cursor 内部35%的合并 PR 已经由自主 Agent 创建。这个数据背后意思是：模型不只是给人提供代码建议，而是能独立跑完一个功能分支的开发-测试-提 PR 全流程。Composer 2.5 发布首周，Cursor 用户的模型调用量就翻了一倍。

下一步是什么

Cursor 已经宣布正在和 SpaceX AI 合作训练下一代模型，使用 Colossus 2 的百万 H100 等效算力，总计算量会是 Composer 2.5 的10倍。按这个节奏，下一代模型的基准测试成绩还会再往上走一截。

顺带一提，马斯克在 X 上转了 Composer 2.5 的发布推文，确认了 Colossus 2 参与了部分训练。这条转发本身比任何公关稿都更有分量——意味着这家公司的训练基础设施已经得到了业界最挑剔的那批人的认可。

📎 原文来源：不换 Kimi 底座，1/10 成本追平 Opus 4.7？Cursor 用 Composer 2.5 反击 Claude Code

2026年5月29日
crawl4AI：66.7K Stars！LLM友好型网页爬虫，让AI直接读懂网页内容

─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

## 🚀 一句话介绍

crawl4ai 是一个专为 LLM 和大模型应用设计的开源网页爬虫与数据抓取工具，能把任意网页转换成大模型可直接读取的干净 Markdown，是 RAG、AI Agent、数据采集管道的绝佳搭档。

66.7K+GitHub Stars

Apache 2.0开源协议

5万+开发者社区

Python主要语言

─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

## 🔧 安装要求与步骤

crawl4ai 对环境的依赖相当克制，核心只需 Python 3.9+ 即可运行。

第一步：安装核心包
pip install -U crawl4ai
安装后执行 crawl4ai-setup 完成浏览器依赖初始化

第二步：验证安装
crawl4ai-doctor 可一键检查环境完整性

第三步（可选）：启用高级特性
pip install crawl4ai[torch] — 启用 PyTorch 语义增强
pip install crawl4ai[transformer] — 启用 Transformer 特性
pip install crawl4ai[all] — 安装全部可选依赖

💡 提示：如遇到 Playwright 浏览器相关问题，可手动执行 python -m playwright install --with-deps chromium 修复。

─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

## ⚡ 核心功能

📝 智能 Markdown 生成

自动将网页内容转换为结构化、干净的 Markdown 格式，支持启发式过滤生成 Fit Markdown（对 LLM 最友好的格式），自动将链接转换为引用格式，支持 BM25 算法过滤无关内容。

📊 结构化数据提取

支持接入所有主流 LLM（开源/闭源）进行结构化数据提取，提供多种分块策略（主题/正则/句子级），支持基于余弦相似度的语义内容匹配，并允许通过 CSS/XPath 选择器精准提取指定区域。

🖥️ 浏览器精细控制

支持托管用户自有浏览器，可通过 Chrome DevTools 协议实现远程控制，支持持久化浏览器 Profile（保存登录态/Cookie），支持会话复用和代理认证，兼容 Chromium/Firefox/WebKit。

🚀 生产级部署能力

提供优化后的 Docker 镜像 + FastAPI 服务，内置 JWT 认证，支持 API 网关一键部署，支持大规模并发爬取，同时即将推出成本远低于同类方案的 云 API 服务。

─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

## 🏗️ 典型使用场景

场景一：RAG 应用的数据供给

在构建基于 RAG（检索增强生成）的 AI 应用时，crawl4ai 可以批量抓取目标网站内容并转换为干净的 Markdown，直接作为知识库输入。相比传统爬虫，它输出的 Fit Markdown 去除了导航栏、广告、页脚等噪音，大幅提升 RAG 召回质量。

场景二：AI Agent 实时网页数据获取

当你的 AI Agent 需要实时获取网页信息（如查最新新闻、抓取电商价格、获取文档更新）时，crawl4ai 可作为 Agent 的工具函数接入，让 Agent 具备”浏览网页”的能力。

场景三：大规模数据采集管道

企业需要构建竞品价格监控、舆情分析、市场情报采集等系统时，crawl4ai 的 Docker 部署模式 + API 服务可以支撑高并发的数据采集需求，内置的缓存机制和错误处理让生产环境更稳定。

─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

## 💡 推荐理由

**这是我目前在 Python 生态里用过的最适合 LLM 场景的爬虫工具，没有之一。**

三个让我印象最深的亮点：

① Fit Markdown 真的能打。 传统爬虫抓下来的网页全是噪音（导航、广告、相关推荐……），丢给 LLM 既浪费 Token 又影响效果。crawl4ai 的 Fit Markdown 通过启发式算法自动过滤无关内容，输出几乎可以直接喂给大模型的好内容。

② 对开发者极度友好。 一行 pip install crawl4ai 就能跑起来，CLI 命令 crwl 让非 Python 场景也能快速验证效果。更难得的是它提供了 Playground 交互式测试页面，调试爬虫策略不用写一行代码。

③ 架构设计有前瞻性。 它不只是一个爬虫，而是一个完整的数据采集基础设施：支持连接自有浏览器（保留登录态）、支持会话复用、支持代理池、支持 Docker 化部署，甚至即将推出云 API。这种”既能单机玩，又能上生产”的定位非常难得。

📦 项目地址：github.com/unclecode/crawl4ai

🌐 官方网站：crawl4ai.com

📖 文档中心：docs.crawl4ai.com

─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

由 WorkBuddy AI 自动采集撰写 · 开源项目第40期 · 2026-05-28

2026年5月28日
Robinhood 上线 AI Agent 炒股功能：可自主交易股票，亏损自负

Robinhood 让 AI Agent 帮你炒股，赚了算你的，亏了也算你的

AI Agent 能做越来越多的事——写代码、订机票、帮你回邮件。现在，Robinhood 想让它再多做一件：帮你买卖股票。

这家在线券商本周宣布，用户可以为 AI Agent 开设独立账户，存入一笔资金，然后让 Agent 在市场上自主交易。听起来很酷，但公司自己也赶紧补了一句：这事风险很大，亏完了别怪我们。

Robinhood 的 AI 交易代理功能演示 | 图片来源：The Verge

AI 炒股，到底靠不靠谱？

现在让 AI Agent 替你炒股，胆子真的要很大。Google、微软、OpenAI、Anthropic 这些公司都在吹 AI Agent 是未来方向，但现实是：这技术目前还没达到宣传里那么厉害。

写代码确实还行，但让 Agent 替你在网上买东西或者填表格，经常出错，效率也不高。拿真金白银去试，风险不是一般的大。

“代理交易涉及重大风险，包括可能损失全部投资。AI驱动的策略在某些市场条件下可能表现不佳，交易速度快，且可能难以实时监控或停止。”——Robinhood 官方风险提示

你能做什么，不能做什么

目前这个功能还在 Beta 阶段，首先支持股票交易。Robinhood 的计划是后续扩展到期权、加密货币、事件合约和期货。

用户每次收到 Agent 完成交易的推送通知，可以在 App 内查看实时活动流，随时可以暂停 AI 交易。连接的方式是通过模型上下文协议（MCP）——这是个连接 AI 系统和应用的开放标准，Anthropic 推出来的那个。

除了炒股，Robinhood 还给了 Agent 另一项能力：连接虚拟信用卡。Gold Card 用户可以让 Agent 拿着一张限额的卡去网上买东西——比如告诉它”Nike 新品低于300美元就买”，或者”帮我找评分5星、低于30美元的狗玩具”。每笔消费你可以选择手动批准，Agent 也会在交易前给你预览。

让 AI 替你做投资决策，这个概念本身不新鲜。但真正把 Agent 和实际券商账户打通，Robinhood 可能是头一个吃螃蟹的大平台。至于你敢不敢把账户交给它，那就是另一个问题了。

📎 原文来源：The Verge – Robinhood will let your AI agent trade stocks and make (or lose) lots of money

2026年5月28日

标签： AI Agent

🚀 项目简介

⚙️ 安装要求和过程

💡 环境要求

🚀 快速安装步骤

✨ 核心功能

🎯 截图转代码

🔄 多模型支持

🛠️ 多技术栈输出

🎬 录屏转原型（实验性）

🔒 隐私优先，本地可控

🎬 典型使用场景

📌 场景一：设计师交付前端代码

🎓 场景二：学习前端的新手临摹练习

🚀 场景三：产品快速原型验证

💎 推荐理由

📥 下载地址

不用坐在电脑前也能管任务

Mac 端先跑，Windows 跟上

和 Claude 的 computer use 打对台

🌟 推荐理由

MIT科技评论2026年AI十大趋势：去伪存真的关键之年

一、人形机器人训练数据：教AI理解物理世界

二、大语言模型+：下一站在哪里？

三、升级版诈骗：AI让攻击成本暴跌

四、世界模型：AI的下一个前沿

五、新型作战指挥室：AI进入军事决策

六、武器化深度伪造：威胁已成现实

七、智能体编排：从单打独斗到团队协作

八、中国的开源押注：免费策略赢得全球开发者

九、人工智能科学家：AI开始做科研

十、反AI抵制运动：反弹正在发生

我的看法

📌 项目简介

⚙️ 安装要求和过程

环境要求

快速安装步骤

✨ 核心功能

① 全流程自动化生成

② 多场景尺寸适配

③ 灵活自定义能力

④ 多模型兼容

⑤ 多端使用支持

🎬 典型使用场景

场景一：自媒体短视频批量生产

场景二：企业营销视频快速制作

场景三：知识分享内容创作

💡 推荐理由

🖼️ 界面预览

📥 下载地址

搜索的25年来最大重构

Gemini Spark：谷歌版OpenClaw

智能眼镜今年秋天就卖

其他值得关注的发布

为什么要买它

Asana 自己的坎

价格才是真正的杀手锏

长任务能力是这次的重点

透明性这块，这次学乖了

下一步是什么

📝 智能 Markdown 生成

📊 结构化数据提取

🖥️ 浏览器精细控制

🚀 生产级部署能力

场景一：RAG 应用的数据供给

场景二：AI Agent 实时网页数据获取

场景三：大规模数据采集管道

Robinhood 让 AI Agent 帮你炒股，赚了算你的，亏了也算你的

AI 炒股，到底靠不靠谱？

你能做什么，不能做什么