软件开发资讯 AI让手机任务自动跑起来!我国高校最新筹议,简化出动成立操作
MOE KLINNS Lab投稿软件开发资讯
量子位 | 公众号 QbitAI
AI目田碳基生物双手,致使能让你的手机我方玩我方!
你没听错——这其实即是出动任务自动化。
在AI马上发展下,这逐步成为一个新兴的热点筹议范围。
出动任务自动化应用AI精确捕捉并理会东谈主类意图,进而在出动成立(手机、平板电脑、车机结尾)上高效施行千般化任务,为那些因领略局限、体魄要求限制或身处特殊情境下的用户提供前所未有的方便与复古。
匡助视障东谈主群用户完成导航、阅读或网上购物援助老年东谈主使用手机,进步数字边界匡助车主在驾驶过程中完成发送短信或调理车内环境替用户完成日常生计中渊博存在的调换性任务……姆妈再也不嫌调换树立多个日期事项会心烦了。
最近,来自西安交通大学智能蚁集与蚁集安全栽培部要点实验室 (MOE KLINNS Lab)的蔡忠闽栽培、宋云鹏副栽培团队(团队主要筹议场所为智能东谈主机交互、搀杂增强智能、电力系统智能化等),基于团队最新AI筹议效能,篡改性建议了基于视觉的出动成立任务自动化有谋划VisionTasker。
这项筹议不仅为日常用户提供了更智能的出动成立使用体验,也展现出了对特殊需求群体的表情与赋能。
基于视觉的出动成立任务自动化有谋划
团队建议了VisionTasker,一个麇集基于视觉的UI贯串和LLM任务贪图的两阶段框架,用于从容已毕出动任务自动化。
该有谋划灵验放置了暗示UI对视图档次结构的依赖,提高了对不同应用界面的妥贴性。
值得考究的是,应用VisionTasker无需无数数据检会大模子。
VisionTasker从用户以当然谈话建议任务需求开动使命, Agent开动贯串并施行指示。
具体已毕如下:
1、用户界面贯串
VisionTasker通过视觉的措施作念UI贯串来理会妥协释用户界面。
率先Agent识别并分析用户界面上的元素及布局,如按钮、文本框、翰墨标签等。
范闲双色球第2024079期红球012路分析:上期红球012路比为2:1:3,2路红球较热,1路红球较冷;最近7期红球012路比为16:12:14,0路红球较热,1路红球较冷。
凡哥双色球第2024079期红球奖号分析:
然后,将这些识别到的视觉信息迁徙成当然谈话式样,用于解释界面内容。
2、任务贪图与施行
接下来,Agent应用大谈话模子导航,凭据用户的指示和界面目貌信息作念任务贪图。
将用户任务拆解为可施行的样子,如点击或滑动操作,以自动鼓励任务的完成。
3、捏续迭代以上过程
每一步完成后,Agent齐会凭据最新界面和历史动作更新其对话和任务贪图,确保每一步的决策齐是基于现时高下文的。
这是个迭代的过程,将捏续进行直到判断任务完成或达到预设的限制。
用户不仅能从交互中目田双手,还不错通过可见辅导监控任务进程,并随时中断任务,保捏对悉数这个词历程的适度。
率先是识别界面中的小部件和文本,检测按钮、文本框等元素偏激位置。
关于莫得文本标签的按钮,应用 CLIP 模子基于视觉联想来料到其可能功能。
随后,系统凭据 UI 布局的视觉信息进行区块离别,软件开发公司将界面分割成多个具有不同功能的区块,并对每个区块生成当然谈话式样。
这个过程还包括文本与小部件的匹配,确保正确贯串每个元素的功能。
最终,悉数这些信息被滚动为当然谈话式样,为大谈话模子提供了了、语义丰富的界面信息,使其或然灵验地进行任务贪图和自动化操作。
实验评估实验评估部分,该神态提供了对三种UI贯串的比拟分析,分别是:
GPT-4VVH(视图层级)VisionTasker措施对比露馅,VisionTasker在多个维度上比其他措施有权贵上风。
此外,在惩处跨谈话应用时也弘扬出了邃密的泛化智商。
△ 实验1中使用到的常见UI布局
标明VisionTasker的以视觉为基础的UI贯串措施在贯串妥协释UI方面具有显然上风,尤其是在濒临千般化和复杂的用户界面时尤为显然。
△跨四个数据集的单步展望准确性
著作还进行了单步展望实验,凭据现时的任务情状和用户界面,展望接下来应该施行的动作或操作。
扫尾露馅,VisionTasker在所特殊据集上的平均准确率达到了67%,比基线措施提高了15%以上。
确凿全国任务:VisionTasker vs 东谈主类实验过程中,筹议东谈主员联想了147个确凿的多样子任务来测试VisionTasker的弘扬,这些任务涵盖了国内常用的42个应用范例。
与此同期,团队还树立了东谈主类对比测试,由12名东谈主类评估者手动施行这些任务,然后VisionTasker的扫尾进行比拟。
扫尾露馅,VisionTasker在大多数任务中能达到与东谈主类异常的完成率,何况在某些不熟练的任务中弘扬优于东谈主类。
△骨子任务自动化实验的扫尾 “Ours-qwen”是指使用开源Qwen已毕VisionTasker框架,”Ours”暗示使用文心一言算作LLM
团队还评估了VisionTasker在不同要求下的弘扬,包括使用不同的大谈话模子(LLM)和编程演示(PBD)机制。
VisionTasker 在大多数直不雅任务中达到了与东谈主类异常的完成率,在熟练任务中略低于东谈主类但在不熟练任务中优于东谈主类。
小程序开发△VisionTasker从容完成任务的展示
论断算作一个基于视觉和大模子的出动任务自动化框架,VisionTasker克服了现阶段出动任务自动化对视图层级结构的依赖。
通过一系列对比实验,评释其在用户界面弘扬上至极了传统的编程演示和视图层级结构措施。
它在4个不同的数据集上齐展示了高效的UI暗示智商,弘扬出更粗造的应用性;并在Android手机上的147个确凿全国任务中,至极是在复杂任务的惩处上,弘扬了出至极东谈主类的任务完成智商。
此外,通过集成编程演示(PBD)机制,VisionTasker在职务自动化方面有权贵的性能普及。
当今,该使命已以厚爱论文的样子发表于2024年10月13-16日在好意思国匹兹堡举行的东谈主机交互顶级会议UIST(The ACM Symposium on User Interface Software and Technology)。
UIST是东谈主机交互范围专注于东谈主机界面软件和本事篡改的CCF A类顶级学术会议。
原文邻接:https://dl.acm.org/doi/10.1145/3654777.3676386
神态邻接:https://github.com/AkimotoAyako/VisionTasker— 完 —
量子位 QbitAI · 头条号签约
关注咱们软件开发资讯,第一时候获知前沿科技动态