
Amazon Nova Act:迈向更智能、网络原生 AI 代理
亚马逊推出了 Nova Act,这是一种为更智能的代理设计的先进人工智能模型,可以在网络浏览器中执行任务。
虽然大型语言模型普及了“代理”的概念,将其作为通过 (RAG) 等方法回答查询或检索信息的工具,但亚马逊的设想更为强大。该公司对代理的定义不仅仅是响应者,更是能够在各种数字和物理环境中执行有形、多步骤任务的实体。
亚马逊表示:“我们的梦想是让代理商执行广泛、复杂、多步骤的任务,例如组织婚礼或处理复杂的 IT 任务,以提高业务生产力。”
当前市场上的产品往往存在不足,许多代理需要持续的人工监督,其功能依赖于全面的 API 集成——这并非适用于所有任务。Nova Act 正是亚马逊针对这些局限性提出的解决方案。
除了该模型之外,亚马逊还发布了 Amazon Nova Act SDK 的研究预览版。使用该 SDK,开发人员可以创建能够自动执行 Web 任务的代理,例如提交外出通知、安排日历保留或启用自动电子邮件回复。
该 SDK 旨在将复杂的工作流程分解为可靠的“原子命令”,例如搜索、结账或与下拉菜单或弹出窗口等特定界面元素交互。可以添加详细说明来优化这些命令,例如,允许开发人员指示代理在结账时绕过保险追加销售。
为了进一步提高准确性,SDK 支持通过 Playwright 进行浏览器操作、API 调用、Python 集成和并行线程来克服网页加载延迟。
Nova Act:基准测试中表现出色
与其他在复杂任务中准确率中等的生成模型不同,Nova Act 更注重可靠性。亚马逊强调,其模型在特定功能的内部评估中获得了超过 90% 的惊人分数,这些分数通常会挑战竞争对手。
Nova Act 在 ScreenSpot Web Text 基准测试中取得了近乎完美的 0.939 分,该基准测试衡量基于文本交互的自然语言指令,例如调整字体大小。而 Claude 3.7 Sonnet(0.900 分)和 OpenAI 的 CUA(0.883 分)等竞争模型则远远落后。
同样,Nova Act 在 ScreenSpot Web Icon 基准测试中得分为 0.879,该基准测试测试了与评级星号或图标等视觉元素的交互。虽然 GroundUI Web 测试(旨在评估 AI 导航各种用户界面元素的能力)显示 Nova Act 略微落后于竞争对手,但亚马逊认为,随着模型的发展,这是一个有待改进的领域。
亚马逊强调其注重提供实用的可靠性。一旦使用 Nova Act 构建的代理按预期运行,开发人员就可以无头部署它,将其集成为 API,甚至可以安排它异步运行任务。在一个演示用例中,代理每周二晚上自动订购沙拉外卖,无需用户持续干预。
亚马逊阐述了其可扩展智能 AI 代理的愿景
Nova Act 的一大亮点在于,它能够将其对用户界面的理解迁移到新环境中,而无需进行额外的训练。亚马逊分享了一个案例,尽管 Nova Act 的训练并未包含电子游戏体验,但它在网页游戏中的表现却令人钦佩。这种适应性使 Nova Act 成为了一个适用于各种应用的多功能智能体。
这项功能已在亚马逊自身的生态系统中得到应用。在 Alexa+ 中,Nova Act 支持自主导航网页,即使在 API 访问权限不够全面的情况下也能帮助用户完成任务。这代表着我们朝着更智能的 AI 助手迈出了一步,这些助手能够独立运作,并以更动态的方式运用自身技能。
亚马逊明确表示,Nova Act 代表着一项更广泛使命的第一阶段,即打造能够处理日益复杂、多步骤任务的智能、可靠的人工智能代理。
除了简单的指令之外,亚马逊的重点是通过强化学习在各种真实场景中训练代理,而不是过于简单的演示。这个基础模型是 Nova 模型长期训练课程的检查点,彰显了该公司重塑 AI 代理格局的雄心。
亚马逊指出:“代理最有价值的用例尚未构建。最优秀的开发者和设计师将会发现它们。Nova Act SDK 的研究预览使我们能够通过快速原型设计和迭代反馈,与这些构建者一起进行迭代。”
Nova Act 是迈向让 AI 代理真正适用于复杂数字任务的一步。从重新思考基准到强调可靠性,其设计理念的核心在于赋能开发者,使其能够超越当前一代工具所能达到的极限。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...