MobileAgent:由阿里巴巴开发的一个可以模拟人类操作手机的自主多模态AI代理。
它是一个纯视觉解决方案,不需要任何系统代码,完全通过分析图像来理解和操作手机。
它能够自动完成各种任务,如:可以自己打开淘宝找帽子添加到购物车,播放音乐,自主使用导航APP,甚至还能写便签和发邮件。
应用案例:
Alibaba购物:在Alibaba上帮助用户找到帽子,并根据条件添加到购物车。
Amazon Music:在Amazon Music中搜索歌手Jay Chou或播放关于“代理”的音乐。
Chrome:搜索今日湖人队比赛结果或关于Taylor Swift的信息。
Gmail:发送空邮件或具有特定内容的邮件。
Google Maps:导航至杭州西湖或附近的加油站。
Google Play:在Play Store下载WhatsApp或Instagram。
Notes:创建新便签并记录特定信息。
Settings:开启深色模式或飞行模式。
TikTok:在TikTok上为宠物猫视频点赞或评论。
YouTube:搜索关于Stephen Curry的视频并进行评论。
多应用场景:结合使用多个应用完成复杂任务。
它的特点包括:
1、依赖于纯视觉解决方案:这意味着MobileAgent主要通过分析图像来理解和操作手机或平板电脑上的内容。它就像人眼一样,通过“看”屏幕来知道发生了什么,而不是通过读取代码或程序内部数据。
2、独立于XML和系统元数据:在软件开发中,XML文件和系统元数据通常用来描述程序的布局和数据信息。
MobileAgent不依赖这些信息来工作,这让它能够在没有访问底层代码或数据权限的情况下操作应用,增加了它的通用性和灵活性。
3、具备多种视觉感知工具进行操作定位:MobileAgent使用了多种技术来“理解”屏幕上显示的内容,包括文本、图标、按钮等。这样的视觉感知能力使得它能够准确地识别和操作屏幕上的各种元素。
4、无需探索和训练,即插即用:传统的自动化软件或机器学习模型在使用前通常需要大量的数据训练或特定环境下的调试。MobileAgent设计成即插即用,意味着用户可以直接在不同的设备和应用上使用它,而无需进行复杂的设置或预训练。
工作原理:
1、视觉感知工具:Mobile-Agent首先利用视觉感知工具准确地识别和定位应用前端界面内的视觉和文本元素。
视觉感知模块:Mobile-Agent使用视觉感知模块来准确地定位屏幕上的操作。这一模块包括检测和光学字符识别(OCR)模型,负责描述屏幕上定位区域的内容并识别其中的文本。
文本和图标定位:当需要点击屏幕上的特定文本时,使用OCR工具检测文本在屏幕上的位置。对于图标点击,使用图标检测工具和CLIP技术来定位图标的位置。
2、自主任务规划和执行:基于感知到的视觉上下文,Mobile-Agent能够自主规划和分解复杂的操作任务,并逐步导航移动应用程序。
操作定义:Mobile-Agent定义了8种操作,包括打开应用、点击文本、点击图标、输入文本、页面上下滚动、返回上一页、退出到桌面和停止操作。
自我规划:Mobile-Agent通过迭代过程完成操作的每一步。在迭代开始前,用户需要输入指令。Mobile-Agent根据系统提示、操作历史和当前屏幕截图输出下一步操作。如果输出的操作是结束过程,则迭代停止;否则,继续新的迭代。
3、自反思:Mobile-Agent具备自我规划能力,可以根据截图、用户指令和操作历史全面规划任务,并通过自反思方法识别错误操作和不完整指令,以提高任务完成率。
错误处理和自反思方法:在迭代过程中,Mobile-Agent可能遇到错误,导致无法完成指令。为了提高指令的成功率,引入了自反思方法。这种方法在两种情况下生效:当代理生成错误或无效操作时,以及当代理可能忽略复杂指令的某些要求时。代理会根据操作历史、当前屏幕截图和用户指令分析操作,确定是否已完成指令。如果没有,代理需要继续通过自我规划生成操作。
4、提示格式
观察、思考和行动:为了更好地实现上述功能,Mobile-Agent采用了提示格式,要求代理输出三个组成部分:观察、思考和行动。观察是代理对当前屏幕截图和操作历史的描述,思考代表代理基于观察和指令生成的下一步操作的考虑,行动要求代理根据思考选择一种操作和参数。
GitHub:https://t.co/UVJNEZva8J
论文:https://t.co/Y5X9lFlGyJ