字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体
作者:方泰攻略站时间:2025-04-19 22:36:59
本站 4 月 18 日消息,本站从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。
有关的链接如下:
GitHub:https://github.com/bytedance/UI-TARS
Website:https://seed-tars.com/
Arxiv:https://arxiv.org/abs/2501.12326
UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。
该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。
据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:
视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。
System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。
统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。
可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。
相关文章
-
字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体
本站 4 月 18 日消息,本站从豆包大模型团队获悉,UI-TARS-1 5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。有关的链接如下:G
-
英特尔 CEO 陈立武精简领导团队,原网络芯片负责人 Sachin Katti 出任 CTO
本站 4 月 18 日消息,据路透社今日报道,英特尔新任首席执行官陈立武已着手精简管理架构,重要芯片部门今后将直接向他本人汇报。根据陈立武向员工发布的备忘录,英特尔已提拔网络芯片负责人 Sachin
-
Discord 在美新泽西州因“涉嫌违反儿童安全法”被起诉:未满 13 周岁孩童可编造生日创建新账号
本站 4 月 18 日消息,据外媒The Verge报道,近期美国新泽西州对 Discord 提起诉讼,指控该公司进行“欺骗性和不合理的商业行为”,导致儿童面临风险。本站从报道中获悉,相应诉状声称 D
-
Epic 喜加一:《植物精灵》游戏免费领取
本站 4 月 17 日消息,Epic 本周送出的游戏是《植物精灵 (Botanicula)》,本作支持中文,一旦领取永久入库。下周送出的游戏是《毛线先生 (CHUCHEL)》。领取链接:《植物精灵 (
-
索尼收购在华游戏机合资公司并改名“玩站匹五”,官方征集 PS5 中文名
感谢本站网友 Lara梁心颐、软媒用户1238620 的线索投递! 本站 4 月 17 日消息,原上海东方明珠索乐文化发展有限公司近日被索尼中国全资收购,
-
相册照片可按日期分组显示,华为 Mate 60 、Pura 70 系列等手机获鸿蒙 HarmonyOS NEXT 5.0.0.155 升级
感谢本站网友 石穿、王二狗蛋32、软媒新友2440234、旺财狗博士、最亮的派大星、BaDang、此号已被注册、zhao_31、adong_a、固囚囿团、米老厨、大学生、评论圈