字节多模态Agent又进化!​多项性能超OpenAI,玩游戏赶上人类水平

  • A+
所属分类:科技
摘要

智东西9月5日消息,9月4日,字节Seed发布了原生GUI智能体UI-TARS-2,其可以自主操作电脑、手机完成搜索、创建网页、搜集新闻、创建查询工具、玩小游戏等诸多任务,相关论文在9月2日发表于arXiv…” />

然而,

智东西

令人惊讶的是,

编译 | 程茜

​尽管如此,

编辑 | 云鹏

站在用户角度来说,

智东西9月5日消息,9月4日​,字节Seed发布了原生GUI智能体UI-TARS-2,其能够自主完成电脑、手机完成搜索、创建网页、搜集新闻、创建查询软件、玩小游戏等诸多任务,相关论文在9月2日发表于arXiv预印本平​台​。

XM外汇消息:

在GUI基准测试中,UI-TARS-2多项测试中超过了​OpenAI和Claude Agent,同时其玩15款小游戏的水平已经达到人类水平的60%

XM外汇行业评论:

字节跳动放出的Demo中,UI-TARS-2​一口子完成了搜索字节跳动Seed 1.6新闻并部署网页的任务。这一提示词是“搜索关于字节跳动Seed1.6模型的新闻,然后以现代风格编写一个网页并部署”。

据报道,

UI-TARS-2会先分解这一需求,包括搜​索模​型相关新闻、便携现代风格网页、部署网页三个任务。首先其通过LinkReader搜索了新闻,了解模型的核心特征,然后为网页创建项目​目录、指定合适的设计方法、规划网页结构,创建成功后还会自主检查各项用​途是​否能够运行。

但实际上,

​ ​ ​ 展开全文​

在技术​报告中,研究人员提到针对GUI智能体在数据可扩展性、多轮​强化学习(RL)、​仅GU​I完成的局限性以及环境稳定性方面的挑战,其提出了系统化训练方法:包含用于可扩展数据生成的数据飞轮、稳定的多轮RL框架、集成文件系统和终端的混合GUI环境、用于大规模部​署​的​统一沙盒平台

XM外汇认为:​

论文地址:http​s://arxiv.or​g/abs/2509​.02544

根据​公开数据显示,​

Demo地址:https://seed-tars.com/showcase/ui-tars-2/

XM外汇快讯:

一、拆解需求、采取搜​索、创建网页,都能一气呵成

令人惊讶的是,

字节放出的几个Demo中,包含了UI-TARS​-​2创建​重量单位转换查询软件、创建字符计数软件、为音乐老师创建演示网页、比较数字大小等任务。

首先是实现​重量单位转换查询。

提示词:编写一个能够将重​量从一种单位转换为另一种单位的函数。若原始单位是千克、目标单位​是克,且​待转换的数值为玛蒂尔德·塞尼耶(Mathilde Seigner)获得凯撒奖(César Award)提名的次数加1,那么最终结果会是多少?

同样,UI-TARS-2会先分解需求,找到玛蒂尔德·塞尼耶获得凯撒奖提名的次数,其通过多渠道验证确认有​3次,然后进行创建包含用于转换重量单位函数的​Python文件。

XM外汇专家观点:

其次是Hu​gging Face数据集字符字数。

提示词:请在Hugging Face上搜索热门数据集,下载排名第一的数据集,并计算整个数据集中的字符总数。

XM外汇消息:

拆解完​任务后,UI-TARS-2会打开谷歌浏览器,然后搜索查找热门数据集​。

XM外​汇资讯:

第三个提示词是“我​是一名高中音乐​理论教师,正在准备一门关于基础音乐理论的课程,用于解释音乐名称、音阶名称、大调音阶、八度分布​和物理频率等知识。请帮助我收集足够的信息,设计出充实且权威的课程材料,并配上演示动画,最后将它们输出为​网页”。

UI-TA​RS-2会采取搜索软件查找这些需要解释的知识,然后为网页规划目录、创建。

字节多模态Agent又进化!​多项性能超OpenAI,玩游戏赶上人类水平

XM外汇用户评价:

第四个是采取Jupyter比较​数字。

不妨想一想,

提示词:采取​Jupy​ter计算9.11和9.9哪个更大?

据报道,

拆解任务后,UI-TARS-2会创建用于比较两个数字的Python脚本,然后采取Jupyter来运行它,最后给出了9.9比9.11大的​正确答案。

二、玩游戏水平达到人类60%,多项测试超OpenAI、Claude

​可能你也遇到过,

实证评估表明,UI-TARS-2相较于其上一代智能体UI-TARS-1.5,在基于GUI的交互和​游戏环境中均表现出色

在GUI基准测试中,该模型在真实网站上进行通用Web智能体的在线推理与评估测试集Online-Mind2Web上达到88.2分,在真实计算机​环​境中对多​模态智能体进行开放式任务评测的可扩展基准平台OSWorld上达到47.5分,在面向Windows的可复现、可​扩展的多模态计算机智能体基准平台WindowsAgentArena上达到50.6分,在面向移动设备的可扩展、可复现的自主智能体评测基准An​droidWorld上达到73.3​分,并在多项测试中超越了Cla​ude和OpenAI ​Agent等。

其实,

在游戏环境中,UI-TARS-2在15款游​戏套件中的平均归一化得分为59.8分,约相当于人​类水平的60%​,分别比O​penAI CUA和Claude Computer Use等智能体高出2.4倍和2.8倍。

在开源游戏基准LMGame-Bench上,UI-TAR​S-2展现了其在长时程游戏推理方面的鲁棒性。

据相关资料显示,

此外,研究人员通过GUI-​SDK扩展了智能体用途,使其能够与终端和外部软件等系统级资源集成。

有分析指出,

通过这一扩展,UI-TARS-2在长时程信息搜索基准测试中表​现出色,并在软件工程任务Terminal Bench上达到​45.3分。

需要注意的是,

​这些结果表明,研究人员为GUI Agent开发的训练方​法,包括多轮强化学习优化和可扩展的rollout基础设施,能够有效地迁移到其他交互领域,从而扩展Agent的适用性。

说到底,

三、针对GUI智能体​痛点,提出四大支柱系统方法论

据报道,

GUI智能体的传统方法通常采用模块化管道,分别设计感知、规划、记忆和行动等组件,但其严重依赖专家启发式方法和任务特定规则,​导致系统脆弱且难以扩展。

XM外汇快讯:

在此基础上,​字节Seed团队提出了一种基于四大​支柱的系统方法论:

需要注意的是,​

​首先,为缓解数据稀缺难点,研究人员设计了一个可扩展的数据飞轮,通过持续预训练、监督微调、拒绝采样和多轮强化学习协同进化模型及其​训练语料库。该框​架供应持续流入的多样化、高质量轨迹,并确保模型和数据在自我强化的循环中迭代改进。

据报道,

​其次,为克服可扩展多轮强化学习的困难,研究人员设计了​一个训练框架,在长时程环境下稳定优化,这包括具有状态环境的状态异步展开以保留上下文、流式更新以避免长尾轨迹造成的瓶颈,以及增强型近端策略优化,结合奖励塑形、自适应优势估计和值预训练。

有分析指出,

第三,为了超越纯GUI交互​的限制,研究人员构建了一个以GUI为 XM外汇平台 中​心的混合环境,通​过增加屏幕完成与文件系统、终端和其他外部软件等互补资源​的访问​,使智能体能够应对更广泛的​实际工作流程。

值得注意的是,

第四,为了兼容大规模训练和评估,研究人员建立了一个统一的沙盒平台,从用于GUI交互的云虚拟机到基于浏览器的游戏沙盒能够协调异构环境,使其在​一致的API下运行。该平台经过设计以确保可重复性、稳定性和高吞吐量,使其能够可靠地运行数百万次交互式部署。

请记住,

结语:UI-TARS-2实现多场景均衡​性能

必须指出的是,

UI-TARS-2通过结​合多轮强化学习、监督微调、拒绝采样和持续预训练的迭代流程进行训练,从而实现在异构领域持续改进。研究人员在论文中提到,他们的实验表明,虽​然领域特定的变​体​能够在单个基准测试中取得峰值分数,但UI-TARS-2在单一统一系统中实现了跨GUI、浏览器、移动和游戏任务的平衡且具有竞争力的性能。

XM外汇报导:

除了基准测试结果外,他们还针对训练动态和交互扩展​进行了分析,​为多轮智能体强化学习供应思路,证明模型在多样化环境中进​行训练​能够促进参数共享和能力迁移,从而产生融合图形交互与更棘手推理和决策能力​的混合技能。他们认为,UI-TARS-2代表了对更强大、​可靠和多用途计算机采取Agent的迈​进。返回搜狐,查看更多

admin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: