UI-TARS-desktop
ByteDance · Apache-2.0 · 37.4K ⭐
字节跳动开源的多模态 AI Agent 技术栈,通过纯视觉理解实现 GUI 自动化操控,让 AI 像人一样操作电脑、浏览器和桌面应用。
📌 项目简介
UI-TARS-desktop 是字节跳动开源的端到端多模态 AI Agent 框架,包含两大核心组件:Agent TARS(通用多模态 AI Agent 技术栈)和 UI-TARS Desktop(基于 UI-TARS 系列模型的桌面原生 GUI Agent 应用)。项目基于纯视觉理解,无需依赖应用 API,通过多模态大模型直接识别 GUI 元素,真正实现”像人一样操作电脑”。
⚙️ 安装要求和过程
环境要求
- Node.js ≥ 22(必需,项目使用
.node-version指定 22+) - pnpm(推荐包管理器)
- 支持 Windows / macOS / Linux 三平台
- AI 模型 API Key(火山引擎/Anthropic/OpenAI 等,或本地部署 UI-TARS 模型)
快速安装(Agent TARS CLI)
# 方式1: npx 直接启动(无需安装)
npx @agent-tars/cli@latest
# 方式2: 全局安装
npm install @agent-tars/cli@latest -g
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey <你的API密钥>
# 方式3: 使用 Anthropic Claude
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey <你的API密钥>
💡 UI-TARS Desktop 桌面版可从 agent-tars.com 下载安装,支持本地算子和远程算子两种模式。
🚀 核心功能
🖱️ 纯视觉 GUI 操控
基于 UI-TARS 系列多模态大模型,通过截图视觉识别直接定位 GUI 元素,实现精准的鼠标点击、键盘输入和拖拽操作,无需应用 API 接入。支持 Windows、macOS、浏览器多平台。
🌐 混合浏览器 Agent
支持 GUI Agent 视觉定位、DOM 操作或两者混合的浏览器控制策略。既可以像人一样”看”网页并点击,也可以直接操作 DOM,灵活应对各类网页自动化场景。
🔄 事件流协议(Event Stream Protocol)
协议驱动的事件流支持上下文工程和 Agent UI 构建,让开发者可以实时监控 Agent 执行过程、干预决策流程,并基于事件流构建自定义 Agent 交互界面。
🧰 MCP 原生集成
内核基于 MCP(Model Context Protocol)构建,同时支持挂载 MCP 服务器对接各类真实世界工具。可无缝接入 Claude Code、Cursor 等 AI 编程助手,扩展 Agent 工具调用能力。
🤖 双形态:CLI + 桌面应用
同时提供 Agent TARS CLI(支持无头服务器模式)和 UI-TARS Desktop 原生桌面应用。CLI 适合开发者和服务端部署,桌面应用提供图形化界面,降低非技术用户使用门槛。
💡 典型使用场景
自动化订票/预订
通过自然语言指令”帮我在北京找一家500元以内的酒店,距离故宫近”,Agent 自动打开浏览器、搜索、筛选并下单,全程无需人工干预。
跨应用工作流自动化
自动操作 Excel + 浏览器 + 邮件客户端,完成数据抓取、处理、发送的完整工作流。例如:每日自动从网站抓取数据、更新表格、发送报告邮件。
GUI 自动化测试
替代传统 Selenium/Playwright,通过视觉理解自动测试桌面应用和 Web 界面。无需维护选择器,界面对齐方式变化也不会影响测试稳定性。
AI 编程助手扩展
接入 Claude Code / Cursor,让 AI 编程助手不仅能写代码,还能自动操作浏览器验证功能、运行桌面应用测试,实现真正的端到端开发自动化。
✨ 推荐理由
纯视觉理解是 GUI 自动化的未来。传统 RPA 工具依赖应用 API 或 DOM 选择器,界面稍有变化就会失效。UI-TARS 通过多模态大模型”看”屏幕,真正模拟人的操作方式,从根本上解决了 GUI 自动化的脆弱性问题。
字节跳动技术实力保障。作为豆包手机的核心技术支撑,UI-TARS 已在生产环境中验证,不是实验室项目。37K+ Stars 和 3.7K+ Forks 也证明了社区的认可。
生态完善,开箱即用。MCP 原生集成让它可以无缝接入现有 AI 工具链;CLI + 桌面应用双形态覆盖开发者和普通用户;支持本地模型和云端 API 双模式部署,兼顾隐私和性能。
🔗 下载地址
📊 项目动态
- 2026-02:UI-TARS-desktop 开源,登顶 GitHub 热榜,Star 数突破 26K
- 2026-06:Star 数突破 37K,社区持续活跃,Discord 成员快速增长
- 作为豆包手机核心技术支撑,生产环境验证可靠性
- 支持 UI-TARS/Seed-1.5-VL/1.6 系列最新模型
📅 数据更新至 2026年6月28日 | 信息来源:GitHub

发表回复