千江大学和香港科学技术等建议

日期:2025-05-04 09:25 浏览:

目前,接口(GUI)代理的多模式大型驱动图形用途在自动化手机和计算机操作中具有很大的潜力。但是,某些现有的代理与“反应性演员”更相似,并且主要依赖于隐性推理,并且通常不处理需要复杂计划和恢复错误的任务。我们认为,为了真正提高GUI代理的能力,关键是从“反应性”转向“故意推理”。结果,智格大学和香港理工大学的研究人员和其他机构拟议的Infigui-R1是一名基于Actor2Reason的创新框架培训的GUI代理商,旨在在此类人的行动前和采取行动之前进行AI的思考。纸张标题:Infigui-R1:从反应性演员到有意推理纸链接:https://arxiv.org/abs/2504.14239 Project warehouse:https://github.com.com.com/reallm-labs/reallm-labs/infigui-r1型号://///gface.co/reallm-labs/infigui-r1-3b从“反应动作”到“故意思考”:智力GUI面临的挑战是认为您让AI代理人完成了多步移动操作,例如“预订明天下午北京的火车上的高速票务票务””。一个简单的“反应动作”代理可以单击其与订单有关的按钮,但是一旦遇到了意外的接口(例如弹出广告,加载失败),易于错误或犯错,因为它缺乏“计划”和“反射”的能力。对于GUI的代理商,以更加可靠和聪明地完成复杂的任务,他们需要具有周到的推理能力。这意味着代理商的行为模式需要从简单的“理解→动作”转变为更高级的“理解→推理→动作”模式。该模型需要不仅了解界面的代理,而且还需要:了解任务的目的:分解高级。structions on specific implementation measures for spatial reasoning: accurately understand and recover from errors, adjust the actor2Reasoner framework: Two steps to create a remembrance of the reference to this purpose, that recognizes the actor the framework, a way of training in two stages with a moreAngry as the main, aimed at gradually cultivating GUI agents from the "reactive actor" to "deliberate reasoning."照片:Actor2Reason通用框架第1阶段:注入推理 - 构成推理此阶段的主要目的的基础是完成从“演员”到“基本推理”的主要过渡。研究人员使用了空间推理技术。他们首先定义了由于缺乏推理而容易出现错误的接触步骤(称为“推理瓶颈样本”),然后使用更有能力的“教师模型”以明确的合理步骤生成高质量的实施轨迹。通过在这些D上执行管理的微调(SFT)通过明确的理解过程,基本模型了解到,基本模型了解到,必须在制定动作之前进行了必要的逻辑思维,尤其是考虑将GUI视觉空间信息纳入。此步骤破坏了“理解→行动”的直接链接,并建立了“理解→推理→动作”的基本模型。第二阶段:增强增强功能 - 基于第一阶段的高级推理,本阶段使用加固研究(RL)进一步提高模型的“有意识”功能,重点是练习两种基本的计划和改进能力。研究人员确定了两种方法:目标指南:为了增强“预期”的代理计划和任务分解功能,研究人员设计了一种奖励机制,以鼓励在其认知过程中清晰准确的中间子目标的模型。通过检查生成的子目标与RE的对齐Al子目标,为模型计划功能提供了有效的研究信号。回溯错误:为了开发“重塑后外观”的反射和自我纠正,研究人员针对的是模仿错误状态或需要从RL训练错误中恢复的情况。例如,让模型学习如何在执行错误的动作后“返回”之类的动作“逃脱”,以及如何在“返回跟踪”之后审查和执行正确的操作。该目标训练可显着提高模型的稳定性和灵活性。为了有效地指导加强的研究过程,研究人员还采用了一套奖励操作,这些操作特别适合许多GUI情况,以提供更好的反馈给代理商。 Infigui-R1-3B:小参数,大能量基于Actor2Reasoner的情节。研究小组培训了Infigui-R1-3B模型(基于QWEN2.5-VL-3B-Instruct)。尽管只有30亿个参数,infigui-r1-3b在多个关键基准中表现出了出色的性能:GUI元素定位(接地)功能非常出色:在平台(移动,台式机,网页)的屏幕码头基准测试中,平均准确率达到87.5%,它是移动,桌面,桌面,桌面和网络平台的文本和图标定位任务的全面领导,同一same paramse volys paramess of paramesters of paramse vormaless of paramse vorme and paramse vormains of paramess of paramess of paramess of paramse nopary sarmote。在更具挑战性的ScreensPot-Pro基准中,用于复杂的高得分桌面应用程序,平均准确率达到35.7%,其性能较大,并且具有7B型号的性能(例如UI-TARS-7B),这比参数强,证明其在复杂的专业软件(例如CAD,Office,Office,Office)Interface中的精确定位。表:屏幕斑表现性能的比较:表现性能(轨迹)的很好比较出色。在AndroidControl基准测试(包括两个难度低和高的水平)上,ImitatinG在实际的Android环境中的复杂活动,成功率分别为92.1%和71.1%。这种成功不仅超过了具有相似参数的SOTA模型(例如UI-TARS-2B),而且比一些7B甚至72B模型(例如Aguvis-72B)更好。表:AndroidControl性能结果的比较完美地显示了Actor2Reason框架的有效性。通过系统的注射和增强理解能力,尤其是计划和反思能力,Infigui-R1-3B在了解GUI和相对较小的模型量表上的复杂工作实施方面取得了领先或竞争性的表现。结论Infigui-R1和Actor2Reasoner Frameworks的提议为开发更智能和可靠的GUI自动化工具开辟了新的途径。这证明,通过精心设计的培训方法,即使是小型的多模式模型也可以得到强有力的计划,推理和反思Capabi因此,在日常生活中使用图形接口的理解和操作更好,以及朝着AI的真实“思考和校正”助手迈出的坚实一步。

0
首页
电话
短信
联系