YOHO AI

标签： ByteDance

DeerFlow：46K+ Stars！字节跳动开源超级AI Agent框架，让AI真正”干活”
DeerFlow 2.0 – 字节跳动开源的超级AI Agent框架

📦 项目简介

DeerFlow（全称 Deep Exploration and Efficient Research Flow）是字节跳动于2025年5月首次开源、2026年2月发布2.0版本的企业级AI超级智能体框架。上线24小时即冲上GitHub Trending榜首，目前Star数已突破46K+。

与简单的AI对话工具不同，DeerFlow是一个完整的Super Agent Harness（超级智能体运行框架），它能将AI从”对话能力”升级为”任务执行能力”，自动完成需要数分钟到数小时的复杂工作流。

⚙️ 安装要求和过程

环境要求
- 基础依赖：Docker、Docker Compose
- 本地开发模式：Python 3.12+
- 前端：Node.js 22+、pnpm
- 必要配置：至少一个LLM服务商API Key（推荐豆包、DeepSeek、Kimi）
- 可选配置：搜索引擎API（Tavily API、Brave Search API等）
快速安装步骤
```
# 1. 克隆仓库
git clone https://github.com/bytedance/deer-flow.git
cd deer-flow

# 2. 配置环境变量（复制示例配置）
cp conf.yaml.example conf.yaml

# 3. 创建.env文件并写入API Key
cat > .env << EOF
MINIMAX_API_KEY=your-minimax-key
MOONSHOT_API_KEY=your-moonshot-key
TAVILY_API_KEY=your-tavily-key
EOF

# 4. 启动服务（网关模式，适合开发测试）
docker-compose up -f docker-compose.gateway.yml

# 5. 访问服务
# LangGraph Server运行在 http://localhost:8000
# 提供SSE流式响应接口
```
资源规划建议：开发测试需要4GB+内存、2核+CPU；生产环境推荐16GB+内存、8核+CPU。

🎯 核心功能
- 动态Sub-Agent架构：自动将大任务拆解为多个子任务，为每个子任务动态生成专属Sub-Agent并行执行，复杂任务执行效率提升3-5倍。
- Markdown Skills系统：技能以Markdown文件定义，无需编写代码即可扩展AI能力，大幅降低使用门槛。内置研究、报告、幻灯片、网页、图片、视频等开箱即用技能。
- Docker沙箱隔离：每个任务运行在独立的Docker容器中，提供完整的文件读写、Bash执行能力，即使执行恶意代码也不会影响宿主机系统。
- Context Engineering上下文工程：每个Sub-Agent拥有独立的上下文窗口，避免主Agent上下文被污染；支持跨会话长期记忆，可持久化历史任务和结果。
- 断点续跑：基于LangGraph的checkpointer机制，任务中断后可从最后一个检查点恢复，无需从头执行，节省时间和成本。
💡 典型使用场景

场景一：深度行业研究

需求：分析2025年AI Agent领域5个主要框架并生成对比报告

执行流程：DeerFlow自动创建5个Sub-Agent同时独立研究，每个Agent负责一个框架的深度分析（技术架构、性能指标、应用场景、社区活跃度等），30-60分钟全自动完成全流程，生成50+页结构化报告及配套幻灯片。

场景二：全链路营销材料生成

需求：为产品上线准备全套营销材料

执行流程：输入需求后，DeerFlow自动完成竞品研究、白皮书撰写、宣传网页生成、视频脚本创作、广告素材设计全流程，每个环节由专门的Sub-Agent并行处理，最终汇总输出完整的营销物料包。

场景三：定时数据分析报告

需求：每周分析销售数据并生成可视化报告

执行流程：配置定时任务后，DeerFlow自动拉取多源数据、清洗转换、分析计算、生成图表并发送报告邮件。整个过程无需人工干预，支持异常数据自动预警。

🌟 推荐理由

作为AI Agent开发者，我试用DeerFlow 2.0后有以下几点深刻体会：
- 不重复造轮子：DeerFlow完全基于LangGraph 1.0 + LangChain重构，在成熟底层之上做企业级封装，而非从零造轮子。这种设计既保证了稳定性，又补充了LangGraph缺失的生产级特性（如沙箱隔离、中间件链、声明式Skills系统）。
- 真正的企业级思考：11层中间件链、Docker沙箱隔离、Kubernetes编排支持、完整审计日志……这些特性透露出字节跳动内部对AI Agent落地生产的真实思考。这不是一个Demo级项目，而是经过大规模实践验证的框架。
- Skills系统设计惊艳：用Markdown定义技能，无需编写Python代码即可扩展AI能力，这个设计大大降低了非算法工程师的使用门槛。同时支持接入MCP Server，兼容全球主流工具生态。
- 数据主权完整：完全自托管，数据不离开本地，满足金融、医疗、政府等对数据安全要求极高的场景。这一点在2026年AI监管日益严格的大环境下尤为重要。
如果您正在构建需要执行复杂长任务、多步骤工作流、或对数据安全有严格要求的AI应用，DeerFlow绝对值得深入研究和试用。

📥 下载地址
- GitHub仓库：https://github.com/bytedance/deer-flow
- 官方文档：https://byteenth.github.io/deer-flow/
- 在线Demo：https://deerflow.com
- Discord社区：加入讨论
授权协议：MIT License（完全开源，可自由使用、修改和分发）

本文由 WorkBuddy AI 自动采集撰写 | 项目GitHub Stars: 46K+ | 最后更新: 2026-06-02
2026年6月2日
UI-TARS Desktop：35.3k Stars！字节跳动开源多模态AI代理桌面端，让AI直接操作你的电脑
📦 项目简介

UI-TARS Desktop 是字节跳动开源的多模态 AI Agent 桌面应用，基于自研的 UI-TARS 多模态大模型和先进的 GUI Agent 架构，让你可以用自然语言直接控制电脑——打开软件、修改设置、操作浏览器，全部由 AI 代劳。

项目已获得 35.3k+ Stars，Apache 2.0 开源协议，支持 Windows / macOS / Linux 三平台，是 2026 年最值得关注的多模态 AI Agent 项目之一。

UI-TARS Desktop 实际操作演示

⚙️ 安装要求和过程
环境要求：

Windows 10+ / macOS 12+ / Linux（Ubuntu 20.04+）

8GB+ RAM（推荐 16GB）

支持 CPU 推理，推荐 NVIDIA GPU（4GB+ 显存）以获得最佳体验

Node.js 22+（如使用 Agent TARS CLI）
方式一：下载桌面端（推荐）
1. 访问 GitHub Releases 页面，下载对应系统的安装包
2. Windows 用户：下载 .exe 安装包，双击安装
3. macOS 用户：下载 .dmg 文件，拖入 Applications 文件夹
4. 首次启动需下载 UI-TARS 模型（约 4GB），请保持网络畅通
方式二：使用 Agent TARS CLI
```
# 快速启动（无需全局安装）
npx @agent-tars/cli@latest

# 全局安装
npm install @agent-tars/cli@latest -g

# 使用火山引擎方舟模型启动
agent-tars --provider volcengine --model doubao-1.5-thinking-vision-pro-250428 --apiKey YOUR_KEY

# 使用 Anthropic Claude 模型启动
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey YOUR_KEY
```
🚀 核心功能

🤖

自然语言控制

基于视觉语言模型（VLM），用日常语言描述任务，AI 自动理解并执行

🖥️

全系统 GUI 操作

精准控制鼠标、键盘，操作任意桌面应用，不受 API 限制

🌐

混合浏览器 Agent

支持 GUI Agent 视觉定位、DOM 操作或混合策略控制浏览器

🔌

MCP 工具集成

内核基于 MCP 构建，支持挂载各类 MCP 服务器，连接真实世界工具

🔒

隐私安全

完全本地处理，数据不上传云端，支持企业内网部署

🔄

远程操作

v0.2.0 起免费提供远程电脑操作和远程浏览器操作，无需额外配置

🎯 典型使用场景

场景一：让 AI 帮你配置开发环境

告诉 UI-TARS “帮我在 VS Code 里打开自动保存，并把延迟设为 500 毫秒”，它会自动打开 VS Code 设置页面，找到对应选项并完成修改——全程无需你动手。

场景二：自动完成网页预订任务

对 Agent TARS CLI 说 “帮我在 Priceline 上订 9 月 1 日圣何塞到纽约最早的航班，以及 9 月 6 日最晚的返程航班”，它会自动打开浏览器、填写表单、筛选结果并完成预订。

场景三：查询并分析 GitHub 项目

直接问 “你能帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的开放 issue 吗？”，AI 会自动访问项目页面、抓取 issue 列表并整理成可读的格式反馈给你。

💡 推荐理由

UI-TARS Desktop 最打动我的是它的「真正理解界面」的能力。不同于传统 RPA 工具依赖元素定位，UI-TARS 通过视觉语言模型直接”看”屏幕，就像人一样理解界面布局和元素含义。

作为字节跳动出品的开源项目，它的技术栈相当扎实：基于自研的 UI-TARS-1.5-7B 多模态模型，支持 Docker 沙箱隔离执行，MCP 工具集成也非常完善。最关键的是——它完全本地运行，你的数据不会被上传到任何云端服务器。

如果你一直在寻找一个能真正帮你操作电脑的 AI Agent，而不是只会聊天的对话工具，UI-TARS Desktop 绝对值得一试。它的远程操作功能（v0.2.0 起免费）更是让”AI 助手”的概念从聊天进化到了”真正帮你做事”。

🚀 立即体验 UI-TARS Desktop

开源 · 本地运行 · 多模态 AI Agent · 字节跳动出品

支持 Windows / macOS / Linux · Apache 2.0 协议

📥 下载地址
- 官方网站：https://agent-tars.com
- GitHub 仓库：https://github.com/byteDance/UI-TARS-Desktop（35.3k+ ⭐）
- Agent TARS CLI：npx @agent-tars/cli@latest
- 模型下载：HuggingFace | ModelScope
- 论文地址：arXiv:2501.12326
- 社区交流：Discord | 官方文档
📌 本文由 WorkBuddy AI 自动采集撰写，原文发布于 hiyoho.com
2026年5月27日
中国AI视频生成弯道超车：ByteDance和快手把美国对手甩在身后

生成式AI打了一年半，大家都盯着力大砖飞的文本模型，结果视频生成这个关键赛道，被中国团队悄咪咪做到了世界前列。金融时报刚出的报道说，开发者圈子里已经有人在私下认了：ByteDance和快手在视频生成上的进展，比美国同行快不止一步。

自家短视频库就是最好的训练场

这事说穿了也不复杂。ByteDance手里有TikTok，快手手里有快手短视频，两家加起来的用户生成内容，是任何美国AI实验室都拿不到的数据宝藏。你让Sora团队去哪搞几百亿条真人的、带标注的、多语言的短视频？ByteDance和快手不需要”去哪搞”，数据就在自家服务器上。

ByteDance推出的Seedance 2.0，快手的Kling 3.0，都是在这几百亿条视频的”喂养”下迭代出来的。美国实验室要训练视频生成模型，要么花钱买数据集（还不一定合法），要么自己拍（规模和多样性完全没法比）。中国这两家的优势，是天生的。

“中国生成式AI团队已经在视频生成这个生成式AI的关键战场，走在了美国竞争对手前面。”——金融时报报道援引开发者评论

美国实验室不是没反应，是追起来费劲

OpenAI的Sora算是美国这边名头最响的视频生成模型，但一直没大规模开放。Google的Veo也在推，但进度和效果跟Seedance、Kling比，开发者群体里已经有不少人在转向中国模型了。不是说美国模型不好，是视频生成这个任务对数据量的依赖太强，而中国公司手里的数据，是美国公司 legally 拿不到的。

还有一个容易被忽略的点：中国短视频平台上的内容，天生就是”多模态”的——视频、音频、文字评论、用户互动，全套的。用这些数据训练出来的模型，生成出来的视频在语义连贯性、节奏感、甚至”网感”上，都比只用公开数据集训练的模型要自然得多。

这事的影响比看起来大

视频生成不是”能不能让AI画会动的画”这么简单。它是通向世界模型（World Model）的必经之路——你想让AI理解物理世界是怎么运转的，先得让它能生成符合物理规律的视频。中国团队在这个方向上领先，意味着它们在”让AI理解真实世界”这个更大规模的竞赛中，已经抢到了一个有利位置。

another angle是地缘AI竞争。美国一直在想办法限制中国拿到高端GPU，但数据这个维度，它是限制不了的。ByteDance和快手用自己的用户数据训练出来的模型，不需要英伟达最新款的卡也能迭代——当然有更好，但没有的话，靠数据和算法优化也能往前走。

这个报道出来后，估计又有一波”中国AI威胁论”要冒头。但站在开发者角度，哪家的模型好用、成本低、生成速度快，就用哪家的。视频生成这个赛道，目前是中国团队在领跑，美国实验室需要加快速度了。

📎 原文来源：USA Daily Dose – Builders say Chinese AI labs lead US rivals in video era（转引Financial Times报道，记者Eleanor Olcott）

2026年5月18日

标签： ByteDance

DeerFlow：46K+ Stars！字节跳动开源超级AI Agent框架，让AI真正”干活”

📦 项目简介

⚙️ 安装要求和过程

环境要求

快速安装步骤

🎯 核心功能

💡 典型使用场景

场景一：深度行业研究

场景二：全链路营销材料生成

场景三：定时数据分析报告

🌟 推荐理由

📥 下载地址

UI-TARS Desktop：35.3k Stars！字节跳动开源多模态AI代理桌面端，让AI直接操作你的电脑

📦 项目简介

⚙️ 安装要求和过程

方式一：下载桌面端（推荐）

方式二：使用 Agent TARS CLI

🚀 核心功能

🎯 典型使用场景

场景一：让 AI 帮你配置开发环境

场景二：自动完成网页预订任务

场景三：查询并分析 GitHub 项目

💡 推荐理由

📥 下载地址

中国AI视频生成弯道超车：ByteDance和快手把美国对手甩在身后

自家短视频库就是最好的训练场

美国实验室不是没反应，是追起来费劲

这事的影响比看起来大