字节AugoGUI：UI-TARS-2

一、研究背景：GUI 智能体的核心挑战

让 AI 像人一样熟练操作图形用户界面（GUI），如电脑桌面、手机 APP、网页等，是 AI 领域的一大难题。传统方法将 “看界面”“想步骤”“点鼠标” 拆分为独立模块，依赖专家设计规则，换个软件（如从 Word 到 Excel）就失效，无法规模化。

后来出现的 “端到端模型”（如 UI-TARS-1.5），虽整合 “感知 – 推理 – 动作”，但仍面临 4 个核心挑战，这也是 UI-TARS-2 要解决的痛点：

数据稀缺且质量低：训练 AI 需要大量 “带思考过程的操作轨迹”（如 “打开浏览器→搜索天气→记录到 Excel” 的步骤 +“为什么这么操作”），这类数据比文本、代码难收集，人工标注成本极高，还易出现场景覆盖不全、推理链缺失的问题；
多轮强化学习（RL）不稳定：GUI 操作多为长流程任务（如写报告需几十步），AI 每步动作是否正确，常到最后才能知晓（如 “报告没保存 = 白做”），这种 “延迟奖励” 会导致 RL 训练容易崩溃；
操作局限于纯 GUI：真实工作中，人类会结合 “界面点击 + 工具调用”（如用浏览器下载文件，再用终端命令分析），但传统 GUI 智能体只能点界面，无法覆盖这类场景；
训练环境难支撑：训练 AI 需模拟成百上千个电脑 / 手机环境（Windows、Android 等），还要保证环境稳定、支持百万级训练任务，工程难度极大。

二、核心框架：UI-TARS-2 的 4 大支柱

UI-TARS-2 针对上述痛点，搭建了 “数据 – 环境 – 训练 – 融合” 的全流程方案，核心设计可总结为 4 个 “支柱”，这是理解模型的关键。

1. 支柱 1：数据飞轮（Data Flywheel）—— 解决 “数据稀缺”

AI 训练依赖数据，没有好数据，再复杂的模型也无用。UI-TARS-2 的 “数据飞轮” 设计，让模型自己 “生产数据” 并反哺优化，形成 “越练越强” 的循环。

（1）飞轮的 3 个核心阶段

飞轮分三步，按数据质量分流，像 “筛选小麦”：

持续预训练（CT）：给模型 “打基础”。用 “广谱数据”，包括网上爬的 GUI 教程、开源操作轨迹、标注员日常操作记录（如 “用微信传文件”），不追求完美，但覆盖多场景（Windows、Ubuntu、Android）；
有监督微调（SFT）：给模型 “教规矩”。用 “高质量数据”，如人工标注的 “标准操作流程”（如 “Excel 做数据透视表的 10 步正确步骤”），还需包含 “思考过程”（如 “选‘数据’标签，因透视表功能在这里”）；
强化学习（RL）：让模型 “自己试错”。模型在模拟环境中操作，成功轨迹（如 “成功下载并分析数据”）加入 SFT 数据，失败轨迹（如 “点错按钮丢文件”）经处理后加入 CT 数据，下次训练避开错误。

（2）飞轮的 “自增强” 逻辑

最妙的是 “模型越好→生成数据越好→模型更优” 的循环：刚开始，模型生成的轨迹 80% 是错的，只能进 CT；训练几轮后，模型水平提升，60% 轨迹正确，这些正确轨迹补充 SFT，让模型学到更多正确操作，形成正向循环。

此外，团队用 “实时标注工具” 收集 “带思考过程” 的数据：标注员操作时，工具自动记录操作 + 语音思考（如 “按 Ctrl+S 保存文件”），语音转文字后与步骤对齐，数据更精准，避免事后补记录的偏差。

2. 支柱 2：多轮 RL 框架 —— 解决 “训练不稳定”

RL 是 UI-TARS-2 性能领先的核心，但传统 RL 在 GUI 长流程任务中易崩，因 “延迟奖励” 让 AI 不知 “哪步错了”。UI-TARS-2 做了 3 个关键优化，让 RL 稳定。

（1）GUI 任务中 RL 的基本逻辑

RL 的核心是 “给奖励，促行动”：

任务：如 “浏览器搜‘2024 北京降雨量’，保存到 TXT”；
动作：AI 可做的操作，如 “点击浏览器图标”“地址栏输网址”“按 Ctrl+S”；
奖励：任务完成给 10 分，中间关键步骤（如 “成功搜到数据”）给 2 分，做错（如 “点错关闭按钮”）扣 5 分；
目标：AI 通过尝试，找到拿最高奖励的 “动作序列”。

（2）UI-TARS-2 的 3 个 RL 优化

异步滚动（Asynchronous Rollout）：传统 RL 需等一个完整轨迹（如 100 步）结束才更新模型，效率低且易卡。UI-TARS-2 用 “状态保存”：AI 做 50 步后，先存结果继续生成下一个轨迹，后台用已有 50 步数据更新模型，实现 “边做边学”，不浪费时间；
改进的 PPO 算法：PPO 是常用 RL 算法，但直接用在 GUI 任务会 “跑偏”，UI-TARS-2 加了 3 个技巧：

奖励塑形（Reward Shaping）：不只最后给奖励，中间关键步骤也给小奖励（如 “成功打开 TXT” 给 2 分），让 AI 知道 “这么做是对的”；
解耦 GAE：GAE 用于估算 “动作价值”，UI-TARS-2 让 “策略网络”（选动作）和 “价值网络”（算奖励）用不同参数，避免互相干扰，如长流程中价值网络不会因步骤多算错奖励；
价值预训练：先让价值网络 “单独上课”，用 SFT 数据学 “什么样的动作能拿高分”，再和策略网络一起训练，相当于 “先讲理论再实操”，减少走弯路；
状态化环境（Stateful Environment）：如 AI 写报告时训练暂停，下次启动能接着上次进度（光标在文档第 3 行），不用从头再来，对长流程任务至关重要。

（3）PPO 中剪辑范围的关键设计

这里要重点区分 “对称剪辑范围” 和 “非对称剪辑范围”，这是 UI-TARS-2 优化 PPO 的关键细节：

对称剪辑范围：传统 PPO 常用 [0.8, 1.2]，核心是 “相对于基准值 1，上下偏移量绝对值相等”。下限 0.8=1-0.2，上限 1.2=1+0.2，对 “策略保守更新”（概率降低）和 “激进探索”（概率升高）限制力度相同，追求 “稳定优先，探索保守”；
非对称剪辑范围（UI-TARS-2 用 [0.8, 1.5]）：上下偏移量绝对值不相等。下限 0.8=1-0.2（和对称范围一致，保稳定，避免错误动作过度更新），上限 1.5=1+0.5（远大于对称范围的 + 0.2，放宽探索限制，保留低概率关键动作，如 “点击隐藏按钮”“释放高收益技能”）。

这种非对称设计，是针对 GUI 复杂任务的定制化优化，既不让策略过度偏离有效路径，又能让 AI 敢探索潜在有效动作。

3. 支柱 3：全能沙盒环境 —— 解决 “操作局限” 与 “环境不稳定”

要让 AI 练手，需 “靠谱的训练场”。UI-TARS-2 搭建两种沙盒环境，覆盖几乎所有场景：

（1）GUI 沙盒：模拟电脑 / 手机

用 “云虚拟机（VM）” 搭建成百上千个 Windows、Ubuntu、Android 环境，AI 能像人一样操作：

跨设备操作：用 PyAutoGUI 控制 Windows 鼠标，ADB 控制 Android 滑动，AI 不用改代码就能切换设备；
工具集成（核心）：沙盒 “文件系统共享”——AI 用浏览器下载 CSV 文件后，能立刻用终端命令（如python analyze.py）分析，再用 Excel 打开结果，实现 “GUI + 工具” 联动，突破纯界面操作局限；
稳定可靠：“VM 管理器” 实时监控环境，崩溃即重启，还能用 VNC 实时看 AI 操作，方便调试。

（2）游戏沙盒：模拟网页小游戏

为测试 AI “动态决策能力”（如玩 2048、贪吃蛇），团队做 “浏览器沙盒”：

硬件加速：GPU 渲染游戏画面，AI 快速拿截图（每 0.1 秒一张），不卡帧；
状态可控：可暂停、加速游戏（如 10 倍速训练），还能保存 “游戏 checkpoint”（如玩到第 5 关，下次直接从第 5 关开始），提升训练效率；
统一接口：不管 2048 还是贪吃蛇，AI 用 “鼠标点击”“键盘按键” 统一动作操作，不用为每个游戏单独写代码。

4. 支柱 4：垂直模型融合 —— 解决 “多场景兼顾”

UI-TARS-2 不是 “通用模型”，而是先训多个 “专科模型”，再融合成 “全科医生”，如：

GUI 浏览模型：学 “网页搜索、信息收集”；
GUI 通用模型：学 “桌面软件操作（Excel、Word）”；
游戏模型：学 “玩网页小游戏”；
SDK 模型：学 “终端命令、工具调用”。

融合用 “参数插值”：每个专科模型参数是 “向量”，融合时给各模型权重（如 GUI 通用模型 0.3，SDK 模型 0.2），计算加权平均。好处是：不用重新训练，融合快；兼顾多场景，如处理 “分析数据” 任务时，能同时用 GUI 打开 Excel、SDK 调用 Python 脚本，性能比单个专科模型好。

三、模型原理：UI-TARS-2 的 “思考与行动” 逻辑

前面讲了框架，现在深入模型内部，看它每一步如何工作，核心是 “ReAct 范式 + 分层记忆”，我们以 “搜索北京 2024 降雨量，保存到 TXT” 为例拆解：

1. 核心范式：ReAct—— 思考→行动→观察

UI-TARS-2 遵循 “ReAct 循环”，每步做 3 件事，像人解决问题：

思考（Thought）：分析当前情况，规划下一步。如看到 “浏览器首页”，思考：“要搜北京 2024 降雨量，下一步点地址栏输百度网址”；
行动（Action）：执行操作。如 “点击地址栏（x=200,y=100），输‘www.baidu.com’，按回车”；
观察（Observation）：获取环境反馈。如浏览器跳转到百度首页，AI 看到 “百度搜索框”，记录下来。

循环重复，直到任务完成（如 “TXT 保存成功”）。

2. 分层记忆：解决 “记不住长流程”

长流程任务（如 100 步）中，AI 不可能记每步细节，因此设计 “工作记忆 + 情景记忆”：

工作记忆（Working Memory）：记 “最近步骤”，如最近 5 步的思考、行动、观察。如 AI 刚在百度搜索框输 “北京 2024 降雨量”，工作记忆记 “搜索框已输内容，下一步按回车”；
情景记忆（Episodic Memory）：记 “过去总结”，如 “10 分钟前，已打开浏览器进入百度首页”，不记细节（如当时鼠标位置），只记关键信息，省内存且帮 AI 回忆 “大方向”。

3. 动作空间：AI 的操作类型

UI-TARS-2 的动作空间分两类，覆盖所有场景：

GUI 动作：直接操作界面，如 “点击（坐标）”“输入文字”“滚动页面”“选下拉菜单”；
SDK 动作：调用工具，如 “执行终端命令（ls看文件）”“调用 Python 脚本（python save.py）”“操作文件系统（复制、粘贴）”。

两类动作无缝衔接 ——AI 用 GUI 下载文件后，立刻用 SDK 分析，不用切换环境。

四、核心贡献：UI-TARS-2 的突破价值

UI-TARS-2 的核心贡献围绕 “突破 GUI 智能体规模化、稳定性、通用性瓶颈”，分四大维度：

1. 方法论贡献：“数据 – 训练 – 环境” 协同范式

传统 GUI 智能体陷 “数据不够→训练不稳定→场景窄” 循环，UI-TARS-2 打破循环，建立 “数据飞轮驱动、多轮 RL 优化、混合环境支撑” 的协同方法论，让 GUI 智能体从 “单一任务适配” 走向 “规模化通用”。

（1）首创 “数据飞轮”：解决数据稀缺痛点

不是简单 “数据收集→训练”，而是 “模型与数据共同进化”：

动态数据分配：按轨迹质量分流，高质量进 SFT（强正确范式），低质量经处理后进 CT（拓宽场景），不浪费数据；
人机协同冷启动与迭代：用 “原位标注” 工具，实时记录标注员操作 + 语音思考，生成 “动作 – 推理对齐” 数据，解决传统标注 “脱离实际” 问题；
跨阶段知识传递：CT 打基础，SFT 练专精，RL 试错反哺 CT/SFT，形成闭环。

（2）“稳定多轮 RL” 框架：攻克长流程训练难题

不是套用现有 RL 算法，而是适配 GUI 特性做三层优化：

奖励设计：从 “终端奖励” 到 “分层奖励 + 动态验证”，中间步骤给小奖励，用 “VLM-as-Verifier” 评估开放场景奖励；
算法优化：解耦 GAE、价值预训练、动态剪辑参数，让 RL 适配长流程；
训练机制：异步滚动 + 状态化环境，提升效率且保连续性。

2. 技术方案贡献：“GUI + 工具” 混合体系

传统 GUI 智能体 “只能操作界面”，脱离真实场景。UI-TARS-2 突破局限，构建 “GUI-SDK 混合动作空间” 和 “垂直模型融合” 方案，让 AI 从 “界面操作者” 升级为 “多工具协同者”。

（1）“混合 GUI 环境”：实现界面与工具无缝协同

不是简单 “GUI + 终端拼接”，而是通过 “共享资源层 + 统一接口” 打破壁垒：

共享文件系统：GUI 下载的文件，SDK 能直接用，避免 “找不到文件” 问题；
统一交互接口：GUI 和 SDK 动作格式一致，模型不用单独学习，降低成本；
跨设备适配：同一套动作逻辑，适配 Windows、Android 等多设备。

（2）“垂直模型参数插值”：高效融合多场景能力

传统 “联合训练” 易 “场景干扰”“成本爆炸”，UI-TARS-2 先训专科模型，再加权融合：

分场景专精训练：每个模型只学对应场景，避免干扰；
参数加权融合：不用重新训练，几小时完成融合；
跨场景迁移：融合后模型能协同多工具，性能超单个专科模型。

3. 工程体系贡献：全栈统一沙盒平台

GUI 智能体训练需 “多环境、高并发、稳运行”，传统环境难支撑。UI-TARS-2 打造 “全栈统一沙盒平台”，为大规模训练提供工程底座。

（1）GUI 沙盒：分布式 VM 集群 + 统一 SDK

万台级 VM 调度：支持每秒数千 QPS 任务请求，“会话 ID 映射” 保环境一致性；
低适配成本跨设备：统一 SDK 封装工具，AI 切换设备不用改代码；
全链路监控与回收：实时可视化操作，任务结束释放资源，避免浪费。

（2）游戏沙盒：硬件加速浏览器 + 状态可控

硬件加速与实时捕捉：GPU 渲染，延迟降为 0.1 秒，实时读游戏变量；
时间可控与 checkpoint：10 倍速训练，保存游戏状态，提升效率；
高并发容器化：弹性调度容器，自动恢复崩溃实例，保长期稳定。

4. 性能与泛化贡献：刷新多领域 benchmarks

算法、技术、工程的价值，最终靠性能验证。UI-TARS-2 在 “GUI、游戏、长流程任务” 刷新权威 benchmarks，推动 GUI 智能体泛化边界。

（1）GUI 任务：全面超越基线

网页任务：Online-Mind2Web 得 88.2 分（超 Claude 4 12.3 分）、Mind2Web（静态网页任务）得 76.5 分（超 UI-TARS-1.5 9.8 分），证明其对网页信息收集、复杂交互的精准把控；
桌面任务：OSWorld（跨 Windows/Ubuntu 任务）得 47.5 分（超 UI-TARS-1.5 10.5 分），WindowsAgentArena（Windows 专项任务）得 50.6 分，能熟练完成 “Excel 数据透视表”“Word 格式排版” 等办公场景核心操作；
手机任务：AndroidWorld（覆盖 116 个手机 APP）得 73.3 分（超 UI-TARS-1.5 8.7 分），可流畅操作 “微信传文件”“支付宝账单导出” 等移动端高频任务；
终端 / 代码任务：Terminal Bench（终端命令执行）得 45.3 分（超传统模型 30%+），SWE-Bench Verified（代码修复）得 68.7 分，实现 “GUI 写代码→终端编译→浏览器调试” 的全流程协同。

（2）游戏任务：接近人类水平，泛化能力突出

在 15 款网页小游戏（2048、贪吃蛇、拼图等）测试中，UI-TARS-2 平均归一化得分 59.8（以人类得分为 100），部分游戏表现亮眼：

2048：91 分（接近人类操作精度，能规划 “合并数字优先级”）；
Infinity-Loop（连线游戏）：92.7 分（快速识别图形连接规律）；
Shapes（形状匹配）：108.9 分（超过人类，可高效匹配复杂不规则形状）；

在 LMGame-Bench（6 款经典游戏）中，与 OpenAI o3、Gemini 2.5 Pro 竞争力持平：“糖果传奇” 得 163.2 分（超 o3 的 106 分）、“超级马里奥” 得 1783.2 分（接近 o3 的 1955 分），且能泛化到 “训练未覆盖游戏”（如首次接触 “植物大战僵尸网页版”，得分达人类的 55%），证明其动态决策与环境适应能力。

（3）长流程与 OOD 泛化：验证训练迁移价值

长流程任务：在 BrowseComp（多轮网页检索 + 多工具协同任务，如 “爬取行业报告→终端统计关键数据→Excel 可视化→PPT 生成”）中，UI-TARS-2 用 “GUI+SDK 混合动作” 得 29.6 分，远超纯 GUI 操作的 7 分，能自主规划 “先检索再分析最后呈现” 的任务优先级；
分布外（OOD）场景：RL 训练以 “网页 / GUI 任务” 为主，但在 “未训练桌面软件（如 PowerPoint 动画制作）”“中文本地化场景（如中文办公软件操作）” 中，性能仅下降 5%-8%，证明其学习到的 “GUI 操作通用规律”（如 “标签页切换逻辑”“按钮功能识别”）可跨场景迁移，鲁棒性强。

此外，UI-TARS-2 还验证了 “量化不丢性能” 的工程优势：采用 W4A8 量化（权重 4 位，激活 8 位）后，推理速度从 29.6 token/s 提升至 47 token/s（提升 59%），延迟从 4 秒降至 2.5 秒（降低 37.5%），但 OSWorld 得分仅从 47.5 降至 44.4，为低配置设备（如手机、轻量笔记本）部署提供可能，突破 “高性能需高硬件” 的限制。

五、数据飞轮关键细节补充：RL 长流程数据来源与低质量试错经验处理

在数据飞轮的迭代循环中，“RL 长流程决策数据从哪来”“低质量试错经验如何参与 CT 训练” 是核心疑问，这两个细节直接决定飞轮能否持续转动，需重点拆解：

1. RL 长流程决策的数据来源：3 类 “带验证信号” 的高质量轨迹

RL 优化长流程决策（如 “多软件协同完成项目报告”）的核心前提，是拥有 “明确任务目标、中间验证节点、完整决策链” 的长轨迹数据，这些数据主要来自 3 个渠道：

（1）自动化合成的可验证长任务轨迹

团队通过 “任务生成算法” 构建多跳、多工具协同的长流程任务（论文 2.5.1 节），每个任务自带 “步骤验证规则”，例如：

多跳数据处理任务：“从‘国家统计局官网’爬取 2024 年各省份 GDP 数据（跳 1）→用终端命令python clean.py清洗数据（需验证清洗后无缺失值，跳 2）→在 Excel 中制作‘省份 GDP 对比表’（需验证表格包含‘省份名称、GDP 数值、同比增速’三列，跳 3）→将表格插入 Word 报告并排版（需验证报告格式规范，跳 4）”；

这类数据由系统自动生成，每步输出均可通过 “文件校验”“格式检查” 等规则验证，能明确判断 RL 模型每步决策是否 “推进任务进度”，解决 “长流程中哪步偏离目标” 的定位难题，是 RL 训练的 “基础数据底座”。

（2）人机协同标注的长流程示范轨迹

通过 “交互式标注平台”（论文 2.4.2 节）让专业标注员完成复杂长任务，实时记录 “动作 + 思考 + 环境反馈” 的完整链路，例如：

标注员完成 “公司年度财务报表分析” 时，平台记录：

“打开企业数据库→导出 2024 年季度营收数据（思考：需选‘CSV 格式’，方便后续 Excel 读取，环境反馈：导出文件大小 2.3MB）”；
“终端执行wc -l revenue.csv→确认数据行数（思考：验证数据完整性，避免导出不完整，环境反馈：输出‘1248 行’，与数据库记录一致）”；
“Excel 导入数据→插入‘季度营收趋势图’（思考：按‘月份’为 X 轴、‘营收’为 Y 轴，突出季度拐点，环境反馈：图表生成成功，显示 Q3 营收增长 15%）”；

这类数据是 RL 的 “优质示范样本”，明确长流程中 “正确的决策逻辑链”（如 “先验证数据再分析”“按目标选择工具格式”），让模型学习 “人类解决复杂任务的思维方式”，避免盲目试错。

（3）飞轮迭代积累的高质量长轨迹

每轮飞轮迭代中，RL 模型生成的轨迹经 “质量筛选” 后，将 “成功完成长流程任务” 的轨迹（，任务完成度≥90%、推理链连贯）补充到 RL 训练池（同时部分同步至 SFT 数据集），例如：

模型首次尝试 “多软件协同做市场调研” 时，可能因 “忘记验证数据完整性” 导致任务失败；经过 3 轮迭代后，生成 “浏览器查竞品数据→终端校验数据格式→Excel 对比分析→PPT 制作汇报” 的完整成功轨迹，这类轨迹会成为下一轮 RL 的 “增量训练数据”，让模型逐步掌握 “长流程任务的优先级规划”（如 “数据验证优先于可视化”“工具选择适配任务目标”），实现 “迭代一次，能力提升一次”。

2. 低质量试错经验参与 CT 阶段：“去噪提纯 + 价值挖掘” 而非直接复用

低质量轨迹（，如 “误关未保存文件”“用错终端命令导致任务中断”）并非直接原封不动放入 CT 数据，而是经过 “三层处理”，保留 “可复用的试错知识”，避免污染 CT 的 “广谱学习目标”（CT 需学习 “操作规律、场景边界”，而非 “错误动作模仿”），具体流程如下：

（1）第一步：无效噪声过滤 —— 剔除无价值轨迹

通过 “规则 + LLM 判断” 双重过滤，只保留 “含试错启示” 的轨迹，例如：

剔除类型：

随机乱点：连续点击界面空白区域、无逻辑按键盘（如连续按 “ESC”），这类轨迹无任何操作规律；
环境异常：VM 崩溃导致操作中断、网络波动导致网页加载失败，这类失败与模型决策无关；
目标偏离：任务目标是 “搜天气”，但模型持续操作 “计算器”，完全偏离任务范围；
保留类型：

有明确错误原因的操作：如 “Excel 编辑后未保存，点击关闭按钮→弹窗选择‘不保存’→数据丢失”（错误原因：未检查文件保存状态）；
工具使用失误：如 “想进入‘/data’目录，误输ls /data（应为cd /data）→终端显示文件列表而非切换目录”（错误原因：混淆终端命令功能）；
交互逻辑误解：如 “网页弹窗‘是否允许获取位置’，点击‘拒绝’→无法加载本地天气数据”（错误原因：未理解弹窗与任务的关联）；

这类轨迹能帮模型学习 “操作边界”“常见错误诱因”，是 CT 阶段 “广谱知识” 的重要补充。

（2）第二步：结构化价值标注 —— 将 “失败记录” 转化为 “避坑指南”

用 UI-TARS-2 自身的 LLM 能力，对保留的低质量轨迹进行 “错误分析与标注”，补充 “错误类型、原因、修正方向”，形成结构化数据，例如：

原始低质量轨迹：“打开浏览器→地址栏输入‘www.baudu.com’（拼写错误）→按回车→显示‘无法访问网页’→反复刷新仍失败→任务终止”；
结构化标注后：

轨迹片段：“地址栏输入‘www.baudu.com’→回车→网页无法访问”；
错误类型：URL 拼写错误导致网页访问失败；
错误原因：混淆 “baidu” 的正确拼写（将 “i” 与 “u” 顺序颠倒）；
修正方向：输入前检查 URL 拼写（可通过 “自动补全功能” 或 “对比常见域名格式” 验证），访问失败时先排查 URL 正确性；

这种处理让低质量轨迹从 “无序的失败操作” 变成 “带知识标签的学习样本”，CT 阶段训练时，模型能明确 “这类操作为什么错、该怎么改”，而非单纯 “看到错误动作”。

（3）第三步：CT 阶段参与形式 —— 控制占比，混合广谱数据

处理后的试错经验以 “轨迹片段 + 错误标注” 的形式，按 “≤20%” 的比例混入 CT 的广谱数据集（其余为正确操作数据、场景覆盖数据），参与持续预训练，核心作用有三：

补充操作边界知识：CT 阶段原本以 “正确操作为主”，加入试错数据后，模型能学习 “错误操作的特征”（如 “弹窗出现时未处理易导致后续失误”“终端命令拼写错误会触发报错”），减少实际交互中的低级错误；
拓宽场景多样性：试错轨迹中常包含 “罕见场景”（如 “浏览器兼容性弹窗”“Excel 宏安全提示”），这些是冷启动数据中缺失的场景，能提升模型对 “非标准界面” 的适应能力；
避免信号干扰：控制试错数据占比（≤20%），且与正确操作数据分开标注（如用 “[错误样本]” 标签区分），训练时模型会自动学习 “正确操作是主流，错误样本是边界参考”，不会因 “错误数据过多” 导致 “学错操作范式”。

六、总结：UI-TARS-2 的行业意义与未来启示

UI-TARS-2 的价值不仅在于提出一个性能领先的 GUI 智能体模型，更在于构建了一套 “从问题定义到工程落地” 的完整方法论，为 GUI 智能体乃至通用智能体的发展提供三大核心启示：

1. 数据飞轮是 “规模化” 的核心引擎

传统 AI 依赖 “人工标注海量数据”，成本高、周期长，且难以覆盖复杂场景。UI-TARS-2 的 “数据飞轮” 证明：让模型 “自主生成数据、自我优化数据”，通过 “质量筛选 – 分流训练 – 迭代反哺” 形成闭环，能突破 “数据稀缺” 瓶颈，这一思路可迁移至机器人操作、工业控制等需要 “交互数据” 的领域。

2. “GUI + 工具” 融合是 “实用性” 的必由之路

纯 GUI 操作无法满足真实工作需求（人类会结合界面与工具），UI-TARS-2 通过 “混合动作空间 + 共享环境”，首次实现 “界面点击与系统级工具调用” 的无缝协同，让智能体从 “玩具级界面操作者” 升级为 “实用级任务解决者”。未来，“多模态交互 + 多工具协同” 将是智能体落地的关键方向（如 “语音指令 + GUI 操作 + API 调用” 融合）。

3. 工程能力决定 “落地上限”

再好的算法，没有稳定的工程底座也无法规模化。UI-TARS-2 的 “万台级 VM 集群”“游戏沙盒硬件加速”“全链路监控系统”，解决了 “高并发训练、环境稳定性、状态可复现” 等工程难题，证明 “算法创新 + 工程落地” 缺一不可。对于 AI 研究者而言，关注工程细节、理解实际部署需求，才能让技术真正产生价值。

UI-TARS-2 的终极目标，是让 AI 成为 “人类的数字助手”—— 帮人类处理重复的电脑操作、完成复杂的多软件协同任务，而这篇论文，正是朝着这个目标迈出的关键一步。希望大家不仅掌握其技术细节，更能学习 “从行业痛点出发，设计系统性解决方案” 的思维方式，这对未来从事 AI 研究与应用至关重要。

Wang H, Zou H, Song H, et al. UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning[J]. arXiv preprint arXiv:2509.02544, 2025.