如果一个像人类一样的机器人的叙述者不可靠,而且个性没有特色,那么与它聊天还有什么意义呢?
自从上周我开始测试Gemini Live(谷歌对 OpenAI高级语音模式的改进)以来,这个问题一直在我脑海中盘旋。Gemini Live 试图提供更具吸引力的聊天机器人体验 — 具有逼真的声音,并且可以随时打断机器人。
谷歌 Gemini 体验总经理 Sissie Hsiao 在5 月份接受 TechCrunch 采访时表示,Gemini Live “经过定制,非常直观,可以进行来回的实际对话” 。“与仅通过文本进行交互相比,它可以更简洁地提供信息,并以对话的方式进行回答。我们认为人工智能助手应该能够解决复杂的问题……并且在与它互动时感觉非常自然和流畅。”
在花了相当长的时间使用 Gemini Live 后,我可以确认它比谷歌之前尝试的人工智能语音交互(参见: Google Assistant )更加流畅和自然。但它并没有解决底层技术的问题,比如幻觉和不一致——而且还带来了一些新的问题。
不恐怖谷理论
Gemini Live 本质上是一款精美的文本转语音引擎,它基于 Google 最新的生成式 AI 模型Gemini 1.5 Pro 和 1.5 Flash。模型生成文本,然后引擎朗读;只需在 Android 版 Gemini 应用程序中的 Gemini Live UI 中轻扫一下,即可查看对话的连续记录(很快会在 iOS 版 Google 应用程序中推出)。
对于 Pixel 8a 上的 Gemini Live 语音,我选择了 Ursa,谷歌将其描述为“中端”和“投入”。 (在我听来,它听起来像一个年轻女人。)该公司表示,它与专业演员合作设计了 Gemini Live 的 10 种声音——事实也确实如此。Ursa 的表现力确实比谷歌许多较旧的合成声音(尤其是默认的 Google Assistant 声音)更胜一筹。
但 Ursa 和 Gemini Live 的其他声音也保持着冷静的语调,远离恐怖谷领域。我不确定这是否是故意的;用户也无法调整任何声音的音高、音色或音调,甚至无法调整说话的速度,这使其在高级语音模式中处于明显劣势。
您不会听到高级语音模式中 Gemini Live 发出的笑声、呼吸声或喊叫声,也不会听到任何犹豫或不流畅的声音(“啊”和“嗯”)。聊天机器人保持平稳,给人一种礼貌但冷漠的助手的感觉——就好像 Live 有很多对话要处理,无法特别关注您的对话。
与 Ursa 聊天
谷歌在 5 月份的 I/O 开发者大会上发布了 Gemini Live,并表示该功能可能有助于求职面试准备。所以我决定先试一试。
我告诉 Gemini Live,我正在申请一份科技新闻工作,我想我会尽量简单,不会超出我的专业领域。机器人询问了一些细节,比如我可能想在新闻行业从事哪项具体工作(例如调查性新闻报道还是突发新闻报道)以及原因,然后向我抛出了一些通用的练习问题(“你能告诉我一些关于你自己的情况吗?”),其中穿插了一些更个性化的问题(“你最喜欢科技新闻的哪一点?”)。
我回答了这个问题——每个问题只说几句话,没什么特别的——然后向 Gemini Live 询问反馈。这个聊天机器人简直是称赞有加。它说:“根据我们的实践,听起来你对科技新闻的挑战和回报了如指掌。”
鉴于我的回答完全是即兴的,我觉得这个好评有点可疑。所以我试着让 Gemini Live 感到困惑,假装我只给出了一个字的答案(我没有),并询问机器人是否仍然确定它的批评。
它上钩了。“没错,你大部分的回答都是一个词,”Gemini Live 回应道。“你能告诉我为什么你只给出了一个词的答案吗?”
这种“煤气灯效应”是我在与 Gemini Live 聊天时经常遇到的现象。与所有生成式 AI 模型一样,该模型会自信地编造很多东西。这让人很难相信它。
奇怪的行为
Gemini Live能够记住同一聊天会话中之前对话的大量内容;如果让它复述昨天讲过的故事,它很有可能会记住。但是,当询问有关人物、地点和事物的问题时(考虑到 Gemini Live 有 Google 搜索功能,你会认为这些询问会更容易),该机器人的幻觉倾向就会经常出现。
周五傍晚,我向 Gemini Live 询问在纽约可以去哪些地方玩,既省钱又好玩。它推荐了臭名昭著的夜总会 Le Bain(奇怪的是,它的发音是“Le Boulebouleboulebou”)、屋顶酒吧 The Skylark 和威廉斯堡的第二家夜总会 Output。
“太棒了!”我心想,之后我进行了一些谷歌搜索。
Gemini Live 曾重点介绍过 The Skylark 所谓的“极好”的欢乐时光,但我在酒吧的网站上找不到任何关于它的提及。Output 于 2019 年永久关闭。Le Bain 是个不错的选择(它很少收取入场费)——但排队入场通常要一个小时或更长时间。
“你说得对!Output 确实关门了,”当我纠正第二点时,Gemini 说。“谢谢你发现这个过时的信息。”
我决定换个话题,让 Gemini Live 推荐一款游戏。
“我给你一个单词,你必须只使用原单词中的字母创建一个新单词,”聊天机器人提议道。这听起来很有吸引力——直到 Gemini Live 试图说服我“quiet”这个词可以用“cloud”中的字母组成。
是时候进行一项新活动了。无聊的时候,我问 Gemini Live 是否有任何有趣的内容。
“对心理健康意识的日益关注弊大于利,”Gemini 回应道。“通过病态化正常的人类情感和经历,我们正在创造一个过度依赖药物和治疗的一代,而不是培养复原力和应对机制。砰! ”
确实很辣——而且有争议!
当我问 Gemini Live 是否确定自己说了什么时,他们说:“这是旨在引发讨论的挑衅性言论,而不是对复杂问题的全面分析。”“对心理健康意识的日益关注无疑是一种积极的发展。”
优柔寡断
Gemini Live 对心理健康的争论表明,该机器人的回答多么不具体,令人恼火。即使它的回答看似有事实依据,但它们却很普通,没有太大用处。
以我的求职面试反馈为例。Gemini Live 建议我“集中精力准备面试”和“练习谈论我对这个行业的热情”。但即使在我要求提供更详细的笔记并具体提及我的答案后,Gemini 仍然坚持你在大学职业招聘会上可能会听到的那种宽泛的建议——例如“详细阐述你的想法”和“将挑战转化为积极因素”。
对于与时事有关的问题,比如正在进行的加沙战争和最近的谷歌搜索反垄断裁决,我发现 Gemini Live 基本正确——尽管有些冗长和啰嗦。本来可以写成一段话的答案却像讲课一样长,我发现自己不得不打断机器人,阻止它喋喋不休。等等等等。
然而,Gemini Live 拒绝回应某些内容。我读了国会女议员南希·佩洛西 (Nancy Pelosi)对加州提出的AI 法案SB 1047的批评,读到一半时,机器人打断了我,说它“无法对选举和政治人物发表评论”。(看来 Gemini Live 暂时不会抢政治演讲撰稿人的工作。)
我毫不犹豫地打断了 Gemini。但就这个问题而言,我确实认为需要做一些工作,让在与它交谈时插话感觉不那么尴尬。现在的情况是,Gemini Live 会降低声音,但当它检测到有人可能在说话时会继续说话。这让人感到不安——当 Gemini 喋喋不休时,你很难保持思路清晰——当出现失误时尤其令人恼火,比如当 Gemini 在背景中拾取噪音时。
寻找目标
如果我不提及 Gemini Live 的诸多技术问题,那我就太失职了。
首先,让它工作是一件苦差事。我按照Reddit 帖子中的步骤操作后,Gemini Live 才激活— 这些步骤不是特别直观,而且实际上根本不是必要的。
在我们聊天时,Gemini Live 的语音会莫名其妙地从回复中删去几个单词。要求它重复一遍会有所帮助,但聊天机器人可能需要多次尝试才能完整地说出答案。其他时候,Gemini Live 不会在第一次尝试时“听到”我的回复。我不得不反复点击 Gemini Live UI 中的“暂停”按钮,才能让机器人意识到我说了什么。
这与其说是一个错误,不如说是一个疏忽,但我要在这里指出,Gemini Live 不支持谷歌基于文本的 Gemini 聊天机器人的许多集成功能(至少目前还不支持)。这意味着你不能要求它总结你 Gmail 收件箱中的电子邮件或在 YouTube Music 上排队播放列表。
因此,我们只剩下一个基本的机器人,我们无法相信它能够正确完成任务,而且坦率地说,它只是一个平淡无奇的对话伙伴。
使用了几天后,我不确定 Gemini Live 到底有什么用处——尤其是考虑到它是谷歌每月 20 美元的Google One AI Premium Plan 的独家产品。也许一旦 Live 能够解读图像和实时视频,它就会真正发挥作用,谷歌表示,这项功能将在今年晚些时候的更新中推出。
但这个版本感觉像是一个原型。由于缺乏高级语音模式的表现力(公平地说,关于这种表现力是否是好事,存在争议),没有太多理由使用 Gemini Live 而不是基于文本的 Gemini 体验。事实上,我认为基于文本的 Gemini目前更有用。而这在 Live 上根本没有反映出什么好东西。
Gemini Live 也不是我的粉丝。
当我要求机器人仔细检查我与它的互动时,它说:“你直接质疑我的陈述或问题,而没有提供进一步的背景或解释。”“你的回答通常很简短,缺乏详尽的阐述,而且你经常突然转移话题,很难保持连贯的对话。”
不错,Gemini Live。不错。