Amazon Nova Act：迈向更智能、网络原生 AI 代理

AI快讯1年前更新 AI助手官网

10.4K 0 0

亚马逊推出了 Nova Act，这是一种为更智能的代理设计的先进人工智能模型，可以在网络浏览器中执行任务。

虽然大型语言模型普及了“代理”的概念，将其作为通过 (RAG) 等方法回答查询或检索信息的工具，但亚马逊的设想更为强大。该公司对代理的定义不仅仅是响应者，更是能够在各种数字和物理环境中执行有形、多步骤任务的实体。

亚马逊表示：“我们的梦想是让代理商执行广泛、复杂、多步骤的任务，例如组织婚礼或处理复杂的 IT 任务，以提高业务生产力。”

当前市场上的产品往往存在不足，许多代理需要持续的人工监督，其功能依赖于全面的 API 集成——这并非适用于所有任务。Nova Act 正是亚马逊针对这些局限性提出的解决方案。

除了该模型之外，亚马逊还发布了 Amazon Nova Act SDK 的研究预览版。使用该 SDK，开发人员可以创建能够自动执行 Web 任务的代理，例如提交外出通知、安排日历保留或启用自动电子邮件回复。

该 SDK 旨在将复杂的工作流程分解为可靠的“原子命令”，例如搜索、结账或与下拉菜单或弹出窗口等特定界面元素交互。可以添加详细说明来优化这些命令，例如，允许开发人员指示代理在结账时绕过保险追加销售。

为了进一步提高准确性，SDK 支持通过 Playwright 进行浏览器操作、API 调用、Python 集成和并行线程来克服网页加载延迟。

Nova Act：基准测试中表现出色
与其他在复杂任务中准确率中等的生成模型不同，Nova Act 更注重可靠性。亚马逊强调，其模型在特定功能的内部评估中获得了超过 90% 的惊人分数，这些分数通常会挑战竞争对手。

Nova Act 在 ScreenSpot Web Text 基准测试中取得了近乎完美的 0.939 分，该基准测试衡量基于文本交互的自然语言指令，例如调整字体大小。而 Claude 3.7 Sonnet（0.900 分）和 OpenAI 的 CUA（0.883 分）等竞争模型则远远落后。

同样，Nova Act 在 ScreenSpot Web Icon 基准测试中得分为 0.879，该基准测试测试了与评级星号或图标等视觉元素的交互。虽然 GroundUI Web 测试（旨在评估 AI 导航各种用户界面元素的能力）显示 Nova Act 略微落后于竞争对手，但亚马逊认为，随着模型的发展，这是一个有待改进的领域。

亚马逊强调其注重提供实用的可靠性。一旦使用 Nova Act 构建的代理按预期运行，开发人员就可以无头部署它，将其集成为 API，甚至可以安排它异步运行任务。在一个演示用例中，代理每周二晚上自动订购沙拉外卖，无需用户持续干预。

亚马逊阐述了其可扩展智能 AI 代理的愿景
Nova Act 的一大亮点在于，它能够将其对用户界面的理解迁移到新环境中，而无需进行额外的训练。亚马逊分享了一个案例，尽管 Nova Act 的训练并未包含电子游戏体验，但它在网页游戏中的表现却令人钦佩。这种适应性使 Nova Act 成为了一个适用于各种应用的多功能智能体。

这项功能已在亚马逊自身的生态系统中得到应用。在 Alexa+ 中，Nova Act 支持自主导航网页，即使在 API 访问权限不够全面的情况下也能帮助用户完成任务。这代表着我们朝着更智能的 AI 助手迈出了一步，这些助手能够独立运作，并以更动态的方式运用自身技能。

亚马逊明确表示，Nova Act 代表着一项更广泛使命的第一阶段，即打造能够处理日益复杂、多步骤任务的智能、可靠的人工智能代理。

除了简单的指令之外，亚马逊的重点是通过强化学习在各种真实场景中训练代理，而不是过于简单的演示。这个基础模型是 Nova 模型长期训练课程的检查点，彰显了该公司重塑 AI 代理格局的雄心。

亚马逊指出：“代理最有价值的用例尚未构建。最优秀的开发者和设计师将会发现它们。Nova Act SDK 的研究预览使我们能够通过快速原型设计和迭代反馈，与这些构建者一起进行迭代。”

Nova Act 是迈向让 AI 代理真正适用于复杂数字任务的一步。从重新思考基准到强调可靠性，其设计理念的核心在于赋能开发者，使其能够超越当前一代工具所能达到的极限。