
微软发布全新多模态操作系统——Agent,开启智能交互新篇章
该文介绍了WindowsAgentArena,这是一个用于评估多模态操作系统(OS)智能体的全新基准测试平台,专门针对Windows操作系统环境。当前的智能体在诸如网页导航、编程和问答等特定领域已经展示了强大的能力,但在。
论文标题:
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale [2024.09.12]
《Windows Agent Arena:大规模评估多模式 OS 代理》
论文地址:
arxiv.org/abs/2409.08264
论文创新点:
• WindowsAgentArena允许智能体在真实的Windows操作系统中自由操作,解决了此前测试平台的环境和模态限制问题。
• 该研究开发了Navi智能体,验证其在该平台中的表现,并发现智能体的成功率为19.5%,相比无助力的人的74.5%仍有较大提升空间。
• 该论文开源了所有代码和基准任务,旨在推动多模态智能体在Windows环境中的开发与评估。
导 读
WindowsAgentArena是一个针对多模态操作系统(OS)智能体的测试平台,专门用于Windows环境。随着大语言模型(LLMs)在任务规划与推理方面的能力不断提升,测试这些模型作为计算机智能体在现实世界中的表现变得至关重要。
WindowsAgentArena通过并行化任务执行,显著缩短了复杂任务评估的时间。此外,本文还引入了名为Navi的智能体,分析其在Windows任务中的表现,并为未来研究提供了深入的见解。
WindowsAgentArena基准测试套件的架构
研究概述
该文介绍了WindowsAgentArena,这是一个用于评估多模态操作系统(OS)智能体的全新基准测试平台,专门针对Windows操作系统环境。当前的智能体在诸如网页导航、编程和问答等特定领域已经展示了强大的能力,但在复杂的多模态环境下(如Windows操作系统),智能体的表现评估依然存在困难。为了解决这些挑战,WindowsAgentArena提供了一个可扩展且可复现的测试环境,允许智能体在真实的Windows操作系统中执行跨应用、多步骤的任务。
研究开发了Navi这一多模态智能体,并在WindowsAgentArena上进行了广泛的测试。Navi展示了在Windows环境下的任务执行能力,其成功率达到了19.5%。此外,Navi还在另一项基准测试Mind2Web中取得了较好的表现。
研究数据
平台设计了154个多步骤任务,涵盖多种应用和任务领域,包括文档编辑、网络浏览、系统设置、代码编辑、媒体播放等。这些任务代表了Windows用户的常见工作负载。任务分布在11个不同的程序/应用中,具体数据如下:
• 文档编辑(Office类任务):43个任务。
• 网络浏览:30个任务。
• 系统任务(文件管理、设置):24个任务。
• 编程相关:24个任务。
• 媒体播放与视频:21个任务。
• Windows实用工具(如记事本、时钟、画图等):12个任务。
任务难度:任务按难度分为三个级别,易(Easy)、中(Medium)、难(Hard),任务完成步骤从5步到20步不等,大部分任务难度为中等。
任务分布概览
研究方法
Agent行为建模
Agent根据系统的当前观察状态生成可执行动作,包括鼠标点击、键盘输入、窗口管理等操作。具体操作通过 pyautogui 或封装的 Computer 类来实现,该类支持更精确的窗口和元素操作。
为了处理复杂的多模态环境,智能体使用了Set-of-Marks (SoM) 标记系统,该系统从屏幕快照、DOM树、UIA树、OCR等多种方式提取界面信息,帮助智能体定位可交互元素,并辅助决策。
Set-of-Marks标记系统的例子。图中不同颜色分别标注了OCR(蓝色)、图标检测(绿色)和图像检测(红色)的结果
奖励函数与任务评估
每个任务的评估基于系统状态的变化,任务结束时,通过预定义的脚本对比执行前后的状态,来判断任务是否完成。如果智能体达成了任务目标,则获得奖励。
奖励分为两种:二元奖励(任务成功或失败)和连续奖励(根据智能体输出与预期目标的相似度给出部分奖励),使得系统可以对复杂任务的部分完成给予评估。
跨数据操作、Web导航、应用设置等任务的评估脚本示例
Navi智能体开发与测试
开发了名为Navi的多模态智能体,以探索和评估其在WindowsAgentArena中的表现。Navi使用链式推理,根据屏幕状态、任务指令、动作历史等生成合理的下一个动作。
为了增强Navi的多模态处理能力,系统提供了几种屏幕信息处理方法,包括UIA树解析、OCR识别、图标和图像检测等。不同配置的Navi智能体分别使用了开源和专有的视觉模型来生成SoM标注。
Agent处理成功的案例
系统并行化与基准测试架构
该平台采用了可扩展的架构,基于Azure云计算的并行化技术,能够快速运行多个智能体实例来完成任务评估。这种方法显著减少了评估时间,从传统的几小时或几天缩短至20分钟左右。
通过在Docker容器中运行Windows 11虚拟机,智能体和任务管理器之间可以通过API高效通信,完成任务分配、执行和评估。任务的执行和评估结果被记录并保存在云端。
本地部署和云端部署的比较
研究结果
基准测试平台的成功构建
研究成功构建了WindowsAgentArena,一个可复现且可扩展的多模态智能体评估平台,专门针对Windows操作系统环境。该平台通过并行化技术大幅缩短了任务评估时间,能够在Azure云端实现快速任务执行和测试。
平台设计了154个多步骤任务,涵盖文档编辑、网页浏览、编程等多种场景,模拟真实用户操作,能够全面测试智能体的规划、工具使用和界面理解能力。
Navi智能体的性能表现及分析
Navi智能体在WindowsAgentArena上测试,取得了19.5%的任务成功率,展示了初步的多模态任务执行能力,尽管相较于人类用户(74.5%)的表现仍有较大提升空间。
Navi在任务中表现出了对文本主导界面的较强处理能力,但在处理依赖图形界面或快捷键的任务时,仍存在较大挑战,分析结果为未来优化智能体提供了方向。
一句话总结:本文构建了WindowsAgentArena,一个针对Windows操作系统的多模态智能体评估平台,并通过Navi智能体的测试,展示了该平台在推动智能体研究和开发中的潜力。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
更多推荐
所有评论(0)