SoundHound 正在赋予其 AI 视觉能力

SoundHound AI 已经是语音助手领域的主要参与者，现在正在为其技术配备一双眼睛。

想象一下，当你开车经过一个地标建筑时，无需掏出手机，只需问你的车“那边的建筑是什么？”，就能立即得到答案。这就是 SoundHound AI 正在构建的。

随着 Vision AI 的推出，SoundHound 的新系统将视觉与声音相结合，创造出一种更智能、更自然的科技互动方式。其理念是模仿人类的互动方式；我们不仅能倾听别人说话，还能看到他们的手势和注视点。

SoundHound 希望通过将同样的情境理解引入 AI，来改善我们如今使用许多智能设备时遇到的笨重且常常令人沮丧的体验。该公司瞄准的是现实世界中的应用，在这些应用中，这种综合感知能力可能会带来巨大的改变，无论是在你的下一辆车里，在餐厅的免下车通道，还是在工厂车间。

SoundHound AI 首席执行官 Keyvan Mohajer 表示：“在 SoundHound，我们相信人工智能的未来不仅仅是多模式的——它是深度集成的、响应迅速的，并且是为了对现实世界产生影响而构建的。

“借助 Vision AI，我们将扩大在语音和对话 AI 领域的领导地位，重新定义人类与企业提供和使用的产品和服务的互动方式。”

那么，它是如何工作的呢？Vision AI 从摄像头获取实时图像，并将其与该公司的语音技术融合，而语音技术在理解自然语音方面已经非常出色。通过同时处理所见所闻，该系统能够以简单的语音助手无法做到的方式掌握用户的真实意图。

想象一下，一位机械师戴着智能眼镜，只需看一眼发动机部件并询问指令，无需放下工具即可获得即时的视觉和音频指导。在商店里，店员只需看一眼货架，就能扫描货架，获取实时库存数量。对于我们其他人来说，这可能意味着一个免下车自助点餐机，只要我们下单，屏幕上就会立即显示确认信息。

创建这样一个系统最大的技术难题之一是确保音频和视频元素完美同步。任何延迟都会破坏自然对话的氛围。

SoundHound AI 工程副总裁 Pranav Singh 表示：“借助 Vision AI，我们将视觉识别和对话智能融合到一个统一的同步流程中。每一帧画面、每一句话语、每一条意图都在同一个生态系统中进行解读，从而确保更快、更自然的用户体验，并支持从自助服务终端到嵌入式设备等各种平台的扩展。

“这是智能与执行力交汇的创新，它提供的人工智能能够看到你所看到的，听到你所说的，并立即做出反应。”

对于采用这项技术的企业来说，其承诺是提供更快的服务、更少的错误和更高的客户满意度。这是为了消除摩擦，让技术不再只是一种需要操作的工具，而更像是一个帮助你完成工作的伙伴。

这项新的视觉功能并非 SoundHound 推出的唯一升级。该公司最近还通过 Amelia 7.1 更新版增强了其系统的“大脑”。这项增强使其AI 代理速度更快、更准确，并让企业对其工作方式拥有更强的控制力和透明度。

通过将视觉和声音结合起来，SoundHound 旨在让我们更接近一个与人工智能互动就像与另一个人交谈一样简单和直观的世界。

文章版权归作者所有，未经允许请勿转载。

2年前

012.7K0

1年前

034.8K0

2年前

033.3K0

1年前

010.9K0

暂无评论

暂无评论...