标签: ByteDance

  • DeerFlow:46K+ Stars!字节跳动开源超级AI Agent框架,让AI真正”干活”

    DeerFlow:46K+ Stars!字节跳动开源超级AI Agent框架,让AI真正”干活”

    DeerFlow Logo

    DeerFlow 2.0 – 字节跳动开源的超级AI Agent框架


    📦 项目简介

    DeerFlow(全称 Deep Exploration and Efficient Research Flow)是字节跳动于2025年5月首次开源、2026年2月发布2.0版本的企业级AI超级智能体框架。上线24小时即冲上GitHub Trending榜首,目前Star数已突破46K+

    与简单的AI对话工具不同,DeerFlow是一个完整的Super Agent Harness(超级智能体运行框架),它能将AI从”对话能力”升级为”任务执行能力”,自动完成需要数分钟到数小时的复杂工作流。


    ⚙️ 安装要求和过程

    环境要求

    • 基础依赖:Docker、Docker Compose
    • 本地开发模式:Python 3.12+
    • 前端:Node.js 22+、pnpm
    • 必要配置:至少一个LLM服务商API Key(推荐豆包、DeepSeek、Kimi)
    • 可选配置:搜索引擎API(Tavily API、Brave Search API等)

    快速安装步骤

    # 1. 克隆仓库
    git clone https://github.com/bytedance/deer-flow.git
    cd deer-flow
    
    # 2. 配置环境变量(复制示例配置)
    cp conf.yaml.example conf.yaml
    
    # 3. 创建.env文件并写入API Key
    cat > .env << EOF
    MINIMAX_API_KEY=your-minimax-key
    MOONSHOT_API_KEY=your-moonshot-key
    TAVILY_API_KEY=your-tavily-key
    EOF
    
    # 4. 启动服务(网关模式,适合开发测试)
    docker-compose up -f docker-compose.gateway.yml
    
    # 5. 访问服务
    # LangGraph Server运行在 http://localhost:8000
    # 提供SSE流式响应接口
    

    资源规划建议:开发测试需要4GB+内存、2核+CPU;生产环境推荐16GB+内存、8核+CPU。


    🎯 核心功能

    • 动态Sub-Agent架构:自动将大任务拆解为多个子任务,为每个子任务动态生成专属Sub-Agent并行执行,复杂任务执行效率提升3-5倍。
    • Markdown Skills系统:技能以Markdown文件定义,无需编写代码即可扩展AI能力,大幅降低使用门槛。内置研究、报告、幻灯片、网页、图片、视频等开箱即用技能。
    • Docker沙箱隔离:每个任务运行在独立的Docker容器中,提供完整的文件读写、Bash执行能力,即使执行恶意代码也不会影响宿主机系统。
    • Context Engineering上下文工程:每个Sub-Agent拥有独立的上下文窗口,避免主Agent上下文被污染;支持跨会话长期记忆,可持久化历史任务和结果。
    • 断点续跑:基于LangGraph的checkpointer机制,任务中断后可从最后一个检查点恢复,无需从头执行,节省时间和成本。

    💡 典型使用场景

    场景一:深度行业研究

    需求:分析2025年AI Agent领域5个主要框架并生成对比报告

    执行流程:DeerFlow自动创建5个Sub-Agent同时独立研究,每个Agent负责一个框架的深度分析(技术架构、性能指标、应用场景、社区活跃度等),30-60分钟全自动完成全流程,生成50+页结构化报告及配套幻灯片。

    场景二:全链路营销材料生成

    需求:为产品上线准备全套营销材料

    执行流程:输入需求后,DeerFlow自动完成竞品研究、白皮书撰写、宣传网页生成、视频脚本创作、广告素材设计全流程,每个环节由专门的Sub-Agent并行处理,最终汇总输出完整的营销物料包。

    场景三:定时数据分析报告

    需求:每周分析销售数据并生成可视化报告

    执行流程:配置定时任务后,DeerFlow自动拉取多源数据、清洗转换、分析计算、生成图表并发送报告邮件。整个过程无需人工干预,支持异常数据自动预警。


    🌟 推荐理由

    作为AI Agent开发者,我试用DeerFlow 2.0后有以下几点深刻体会:

    • 不重复造轮子:DeerFlow完全基于LangGraph 1.0 + LangChain重构,在成熟底层之上做企业级封装,而非从零造轮子。这种设计既保证了稳定性,又补充了LangGraph缺失的生产级特性(如沙箱隔离、中间件链、声明式Skills系统)。
    • 真正的企业级思考:11层中间件链、Docker沙箱隔离、Kubernetes编排支持、完整审计日志……这些特性透露出字节跳动内部对AI Agent落地生产的真实思考。这不是一个Demo级项目,而是经过大规模实践验证的框架。
    • Skills系统设计惊艳:用Markdown定义技能,无需编写Python代码即可扩展AI能力,这个设计大大降低了非算法工程师的使用门槛。同时支持接入MCP Server,兼容全球主流工具生态。
    • 数据主权完整:完全自托管,数据不离开本地,满足金融、医疗、政府等对数据安全要求极高的场景。这一点在2026年AI监管日益严格的大环境下尤为重要。

    如果您正在构建需要执行复杂长任务、多步骤工作流、或对数据安全有严格要求的AI应用,DeerFlow绝对值得深入研究和试用。


    📥 下载地址

    授权协议:MIT License(完全开源,可自由使用、修改和分发)


    本文由 WorkBuddy AI 自动采集撰写 | 项目GitHub Stars: 46K+ | 最后更新: 2026-06-02

  • UI-TARS Desktop:35.3k Stars!字节跳动开源多模态AI代理桌面端,让AI直接操作你的电脑

    UI-TARS Desktop:35.3k Stars!字节跳动开源多模态AI代理桌面端,让AI直接操作你的电脑


    📦 项目简介

    UI-TARS Desktop 是字节跳动开源的多模态 AI Agent 桌面应用,基于自研的 UI-TARS 多模态大模型和先进的 GUI Agent 架构,让你可以用自然语言直接控制电脑——打开软件、修改设置、操作浏览器,全部由 AI 代劳。

    项目已获得 35.3k+ Stars,Apache 2.0 开源协议,支持 Windows / macOS / Linux 三平台,是 2026 年最值得关注的多模态 AI Agent 项目之一。

    UI-TARS Desktop 演示

    UI-TARS Desktop 实际操作演示

    ⚙️ 安装要求和过程

    环境要求:

    • Windows 10+ / macOS 12+ / Linux(Ubuntu 20.04+)
    • 8GB+ RAM(推荐 16GB)
    • 支持 CPU 推理,推荐 NVIDIA GPU(4GB+ 显存)以获得最佳体验
    • Node.js 22+(如使用 Agent TARS CLI)

    方式一:下载桌面端(推荐)

    1. 访问 GitHub Releases 页面,下载对应系统的安装包
    2. Windows 用户:下载 .exe 安装包,双击安装
    3. macOS 用户:下载 .dmg 文件,拖入 Applications 文件夹
    4. 首次启动需下载 UI-TARS 模型(约 4GB),请保持网络畅通

    方式二:使用 Agent TARS CLI

    # 快速启动(无需全局安装)
    npx @agent-tars/cli@latest
    
    # 全局安装
    npm install @agent-tars/cli@latest -g
    
    # 使用火山引擎方舟模型启动
    agent-tars --provider volcengine --model doubao-1.5-thinking-vision-pro-250428 --apiKey YOUR_KEY
    
    # 使用 Anthropic Claude 模型启动
    agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey YOUR_KEY
    

    🚀 核心功能

    🤖
    自然语言控制
    基于视觉语言模型(VLM),用日常语言描述任务,AI 自动理解并执行
    🖥️
    全系统 GUI 操作
    精准控制鼠标、键盘,操作任意桌面应用,不受 API 限制
    🌐
    混合浏览器 Agent
    支持 GUI Agent 视觉定位、DOM 操作或混合策略控制浏览器
    🔌
    MCP 工具集成
    内核基于 MCP 构建,支持挂载各类 MCP 服务器,连接真实世界工具
    🔒
    隐私安全
    完全本地处理,数据不上传云端,支持企业内网部署
    🔄
    远程操作
    v0.2.0 起免费提供远程电脑操作和远程浏览器操作,无需额外配置

    🎯 典型使用场景

    场景一:让 AI 帮你配置开发环境

    告诉 UI-TARS “帮我在 VS Code 里打开自动保存,并把延迟设为 500 毫秒”,它会自动打开 VS Code 设置页面,找到对应选项并完成修改——全程无需你动手。

    场景二:自动完成网页预订任务

    对 Agent TARS CLI 说 “帮我在 Priceline 上订 9 月 1 日圣何塞到纽约最早的航班,以及 9 月 6 日最晚的返程航班”,它会自动打开浏览器、填写表单、筛选结果并完成预订。

    场景三:查询并分析 GitHub 项目

    直接问 “你能帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的开放 issue 吗?”,AI 会自动访问项目页面、抓取 issue 列表并整理成可读的格式反馈给你。

    💡 推荐理由

    UI-TARS Desktop 最打动我的是它的「真正理解界面」的能力。不同于传统 RPA 工具依赖元素定位,UI-TARS 通过视觉语言模型直接”看”屏幕,就像人一样理解界面布局和元素含义。

    作为字节跳动出品的开源项目,它的技术栈相当扎实:基于自研的 UI-TARS-1.5-7B 多模态模型,支持 Docker 沙箱隔离执行,MCP 工具集成也非常完善。最关键的是——它完全本地运行,你的数据不会被上传到任何云端服务器。

    如果你一直在寻找一个能真正帮你操作电脑的 AI Agent,而不是只会聊天的对话工具,UI-TARS Desktop 绝对值得一试。它的远程操作功能(v0.2.0 起免费)更是让”AI 助手”的概念从聊天进化到了”真正帮你做事”。

    🚀 立即体验 UI-TARS Desktop

    开源 · 本地运行 · 多模态 AI Agent · 字节跳动出品

    支持 Windows / macOS / Linux · Apache 2.0 协议

    📥 下载地址


    📌 本文由 WorkBuddy AI 自动采集撰写,原文发布于 hiyoho.com

  • 中国AI视频生成弯道超车:ByteDance和快手把美国对手甩在身后

    生成式AI打了一年半,大家都盯着力大砖飞的文本模型,结果视频生成这个关键赛道,被中国团队悄咪咪做到了世界前列。金融时报刚出的报道说,开发者圈子里已经有人在私下认了:ByteDance和快手在视频生成上的进展,比美国同行快不止一步。

    自家短视频库就是最好的训练场

    这事说穿了也不复杂。ByteDance手里有TikTok,快手手里有快手短视频,两家加起来的用户生成内容,是任何美国AI实验室都拿不到的数据宝藏。你让Sora团队去哪搞几百亿条真人的、带标注的、多语言的短视频?ByteDance和快手不需要”去哪搞”,数据就在自家服务器上。

    ByteDance推出的Seedance 2.0,快手的Kling 3.0,都是在这几百亿条视频的”喂养”下迭代出来的。美国实验室要训练视频生成模型,要么花钱买数据集(还不一定合法),要么自己拍(规模和多样性完全没法比)。中国这两家的优势,是天生的。

    “中国生成式AI团队已经在视频生成这个生成式AI的关键战场,走在了美国竞争对手前面。”——金融时报报道援引开发者评论

    美国实验室不是没反应,是追起来费劲

    OpenAI的Sora算是美国这边名头最响的视频生成模型,但一直没大规模开放。Google的Veo也在推,但进度和效果跟Seedance、Kling比,开发者群体里已经有不少人在转向中国模型了。不是说美国模型不好,是视频生成这个任务对数据量的依赖太强,而中国公司手里的数据,是美国公司 legally 拿不到的。

    还有一个容易被忽略的点:中国短视频平台上的内容,天生就是”多模态”的——视频、音频、文字评论、用户互动,全套的。用这些数据训练出来的模型,生成出来的视频在语义连贯性、节奏感、甚至”网感”上,都比只用公开数据集训练的模型要自然得多。

    这事的影响比看起来大

    视频生成不是”能不能让AI画会动的画”这么简单。它是通向世界模型(World Model)的必经之路——你想让AI理解物理世界是怎么运转的,先得让它能生成符合物理规律的视频。中国团队在这个方向上领先,意味着它们在”让AI理解真实世界”这个更大规模的竞赛中,已经抢到了一个有利位置。

    another angle是地缘AI竞争。美国一直在想办法限制中国拿到高端GPU,但数据这个维度,它是限制不了的。ByteDance和快手用自己的用户数据训练出来的模型,不需要英伟达最新款的卡也能迭代——当然有更好,但没有的话,靠数据和算法优化也能往前走。


    这个报道出来后,估计又有一波”中国AI威胁论”要冒头。但站在开发者角度,哪家的模型好用、成本低、生成速度快,就用哪家的。视频生成这个赛道,目前是中国团队在领跑,美国实验室需要加快速度了。

    📎 原文来源:USA Daily Dose – Builders say Chinese AI labs lead US rivals in video era(转引Financial Times报道,记者Eleanor Olcott)