微软开源AI基准测试：涵盖154项任务，20分钟全面评估？微软开源dapr

小条 2024-09-19

编辑： 8954d70dfd104bed92793d3cab6f2116~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727323111&x-signature=FqJgNLrpjFOUYse%2Bg5bRjF7h9zA%3D |

编辑| 莫莹

据Smart Things News 9 月14 日报道，VentureBeat 昨天报道称，微软宣布了一项名为Windows Agent Arena (WAA) 的突破性基准测试。该测试用于评估AI代理在Windows操作环境下的性能，旨在加快AI代理的开发速度。

这篇论文发表在arXiv.org 上。研究人员写道：“大规模语言模型在人工智能代理领域显示出巨大的潜力，可以提高人类生产力和软件在需要规划和推理的多模式任务中的可用性。”但在现实世界的测量中，”他补充道。人工智能代理在环境中的性能仍然是一个挑战。 ”

论文链接：https://arxiv.org/pdf/2409.08264

WAA的创新之处在于能够在Microsoft Azure云技术中的多个虚拟机上运行并行测试，在短短20分钟内完成全面的基准评估。

此外，微软还计划将多模式AI Agent Navi 引入测试，以展示WAA 的功能。经过测试，Navi 在WAA 测试中完成任务的成功率为19.5%，而人类的成功率为74.5%。

43109c0e83f6444492d45d1a8d6b3aba~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727323111&x-signature=xgQ%2BLp9novYq1PtOtW6VydBU5F4%3D Windows Agent Arena（来源：Windows Agent Arena页面）

一、涵盖154项任务测试，全面基准评估时长缩短至20分钟

Windows Agent Arena 提供了一个可重现的测试环境，其中AI 代理与常见的Windows 应用程序、Web 浏览器和系统工具进行交互，以模拟人类用户体验，使开发人员能够帮助评估和优化功能。

微软研究人员认为，大多数基准测试仅限于特定模式或领域（纯文本、网络导航、问答、编码等），并且考虑到任务的多步骤性质，他表示测试代理性能仍然是一个挑战。就其本质而言，完整的基准评估将会很慢（大约需要几天）。

WAA 的一项关键创新是能够在Microsoft Azure 云技术上的多个虚拟机上运行并行测试。论文指出，“我们的基准测试是可扩展的，可以在Azure 中无缝并行化，只需20 分钟即可完成全面的基准测试评估，而传统的顺序测试可能需要数天时间。这显着提高了AI 的速度。代理开发周期。

该测试包括154 项不同的任务，包括编辑文档和电子表格(LibreOffice Calc/Writer)、浏览互联网（Microsoft Edge、Google Chrome）、Windows 系统任务（文件资源管理器、设置）和编码（Visual Studio Code）。观看视频（VLC播放器）和实用功能（记事本、时钟、画图）。

66b67d8eaa214bb9851b6d890b3e1867~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727323111&x-signature=wi89TJsdiLYU45XCfqcLYRlAj6Q%3D 查看感兴趣的具体测试任务（来源：Windows Agent Arena 页面）

二、测试AI Agent任务成功率仅19.5%，远低于人类操作能力

Windows Agent Arena 项目页面指出，“为了演示WAA 的功能，我们还推出了新的多模式AI Agent Navi。”

正在加载视频.

Navi 在Windows Agent Arena 中面临一个典型的Windows 任务：在Visual Studio Code 中安装Pylance 扩展。这展示了如何训练人工智能代理在常见软件环境中导航（来源：微软研究院）

测试结果显示，Navi 在WAA 中的成功率为19.5%，而人类的成功率为74.5%。这表明，开发与人类计算机行为相似的人工智能仍然面临重大挑战。

5e7132dc61df4ad28dce8240e5dc06ae~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727323111&x-signature=nGZglVzmgiDHMTmkSlVZa7nfreU%3D Navi 在任务过程中的推理过程和屏幕分析的分步示例（来源：Windows Agent Arena 页面）

该研究的主要作者Rogerio Bonatti 表示： “Windows Agent Arena 为实现AI 代理的突破提供了现实且全面的环境。同时，我们期待通过AWW 开源来加速AI 代理的开发。我们支持整个AI 社区在该领域的研究”。

此外，微软还对几种最先进的视觉语言模型代理配置进行了基准测试，发现所有现有模型的性能均低于人类行为，据我了解，模型之间的性能差异很大。

WAA 的发布正值科技巨头之间的竞争加剧之际，这些巨头正在开发更强大的人工智能代理来处理复杂的计算机任务。

微软对Windows环境的关注可能让它在企业场景中保持优势。

三、开发AI Agent时需平衡创新和伦理

虽然像Navi 这样的人工智能代理的潜在好处是巨大的，但此类技术的发展也引发了重要的道德考虑。

随着人工智能代理变得越来越复杂，他们将更全面地访问您的数字生活，并可能在各种应用程序中接触您敏感的个人和专业信息。

由于AI代理可以在Windows环境下自由访问文件、发送电子邮件、更改系统设置等，因此需要强有力的隐私保护措施。

在赋予人工智能有效协助用户同时维护用户隐私的能力与控制用户数字领域之间需要找到微妙的平衡。

此外，随着人工智能代理能够模仿人类与计算机系统的交互，透明度和问责制方面的问题也随之出现。

明确用户同意也很重要，因为当用户与人工智能交互时，尤其是在专门或高风险的场景中，可能需要明确的信息。

结语：开源WAA也需提升风险防控意识

Microsoft 通过开源Windows Agent Arena 向改进协作开发和审查技术迈出了积极的一步。

但与此同时，有人可能会利用此测试来开发恶意人工智能代理，因此人们需要在这方面保持必要的警惕和监督。

随着WAA 加速开发更强大的人工智能代理，研究人员、伦理学家、政策制定者和公众参与有关这些技术影响的持续讨论将变得非常重要。

来源：VentureBeat，Windows Agent Arena 页面

微软开源AI基准测试：涵盖154项任务，20分钟全面评估？微软开源dapr

一、涵盖154项任务测试，全面基准评估时长缩短至20分钟

二、测试AI Agent任务成功率仅19.5%，远低于人类操作能力

三、开发AI Agent时需平衡创新和伦理

结语：开源WAA也需提升风险防控意识

猜你喜欢

微软开源AI基准测试：涵盖154项任务，20分钟全面评估？微软开源dapr

微积分（微积分求导公式大全表）

简明易懂的微积分入门指南

微积分到底讲了什么，一篇文章让您搞懂微积分

微积分，微积分和高等数学的区别

什么是微积分？（什么是微积分,有什么用途）

每天读书2小时的人，教你在微信读书上薅羊毛，免费读书微信读书收费标准

如何使用微信小程序？，如何使用微信小程序不被发现

微信公众平台操作手册？微信公众号平台入口

手把手教你注册一个公众号，适合新手小白如何注册微信公众号