Gemini Live 需要多排练

如果一个像人类一样的机器人的叙述者不可靠，而且个性没有特色，那么与它聊天还有什么意义呢？

自从上周我开始测试Gemini Live（谷歌对 OpenAI高级语音模式的改进）以来，这个问题一直在我脑海中盘旋。Gemini Live 试图提供更具吸引力的聊天机器人体验 — 具有逼真的声音，并且可以随时打断机器人。

Gemini Live 需要多排练

谷歌 Gemini 体验总经理 Sissie Hsiao 在5 月份接受 TechCrunch 采访时表示，Gemini Live “经过定制，非常直观，可以进行来回的实际对话” 。“与仅通过文本进行交互相比，它可以更简洁地提供信息，并以对话的方式进行回答。我们认为人工智能助手应该能够解决复杂的问题……并且在与它互动时感觉非常自然和流畅。”

在花了相当长的时间使用 Gemini Live 后，我可以确认它比谷歌之前尝试的人工智能语音交互（参见： Google Assistant ）更加流畅和自然。但它并没有解决底层技术的问题，比如幻觉和不一致——而且还带来了一些新的问题。

不恐怖谷理论

Gemini Live 本质上是一款精美的文本转语音引擎，它基于 Google 最新的生成式 AI 模型Gemini 1.5 Pro 和 1.5 Flash。模型生成文本，然后引擎朗读；只需在 Android 版 Gemini 应用程序中的 Gemini Live UI 中轻扫一下，即可查看对话的连续记录（很快会在 iOS 版 Google 应用程序中推出）。

对于 Pixel 8a 上的 Gemini Live 语音，我选择了 Ursa，谷歌将其描述为“中端”和“投入”。（在我听来，它听起来像一个年轻女人。）该公司表示，它与专业演员合作设计了 Gemini Live 的 10 种声音——事实也确实如此。Ursa 的表现力确实比谷歌许多较旧的合成声音（尤其是默认的 Google Assistant 声音）更胜一筹。

但 Ursa 和 Gemini Live 的其他声音也保持着冷静的语调，远离恐怖谷领域。我不确定这是否是故意的；用户也无法调整任何声音的音高、音色或音调，甚至无法调整说话的速度，这使其在高级语音模式中处于明显劣势。

您不会听到高级语音模式中 Gemini Live 发出的笑声、呼吸声或喊叫声，也不会听到任何犹豫或不流畅的声音（“啊”和“嗯”）。聊天机器人保持平稳，给人一种礼貌但冷漠的助手的感觉——就好像 Live 有很多对话要处理，无法特别关注您的对话。

与 Ursa 聊天

谷歌在 5 月份的 I/O 开发者大会上发布了 Gemini Live，并表示该功能可能有助于求职面试准备。所以我决定先试一试。

我告诉 Gemini Live，我正在申请一份科技新闻工作，我想我会尽量简单，不会超出我的专业领域。机器人询问了一些细节，比如我可能想在新闻行业从事哪项具体工作（例如调查性新闻报道还是突发新闻报道）以及原因，然后向我抛出了一些通用的练习问题（“你能告诉我一些关于你自己的情况吗？”），其中穿插了一些更个性化的问题（“你最喜欢科技新闻的哪一点？”）。

我回答了这个问题——每个问题只说几句话，没什么特别的——然后向 Gemini Live 询问反馈。这个聊天机器人简直是称赞有加。它说：“根据我们的实践，听起来你对科技新闻的挑战和回报了如指掌。”

鉴于我的回答完全是即兴的，我觉得这个好评有点可疑。所以我试着让 Gemini Live 感到困惑，假装我只给出了一个字的答案（我没有），并询问机器人是否仍然确定它的批评。

它上钩了。“没错，你大部分的回答都是一个词，”Gemini Live 回应道。“你能告诉我为什么你只给出了一个词的答案吗？”

这种“煤气灯效应”是我在与 Gemini Live 聊天时经常遇到的现象。与所有生成式 AI 模型一样，该模型会自信地编造很多东西。这让人很难相信它。

奇怪的行为

Gemini Live能够记住同一聊天会话中之前对话的大量内容；如果让它复述昨天讲过的故事，它很有可能会记住。但是，当询问有关人物、地点和事物的问题时（考虑到 Gemini Live 有 Google 搜索功能，你会认为这些询问会更容易），该机器人的幻觉倾向就会经常出现。

周五傍晚，我向 Gemini Live 询问在纽约可以去哪些地方玩，既省钱又好玩。它推荐了臭名昭著的夜总会 Le Bain（奇怪的是，它的发音是“Le Boulebouleboulebou”）、屋顶酒吧 The Skylark 和威廉斯堡的第二家夜总会 Output。

“太棒了！”我心想，之后我进行了一些谷歌搜索。

Gemini Live 曾重点介绍过 The Skylark 所谓的“极好”的欢乐时光，但我在酒吧的网站上找不到任何关于它的提及。Output 于 2019 年永久关闭。Le Bain 是个不错的选择（它很少收取入场费）——但排队入场通常要一个小时或更长时间。

“你说得对！Output 确实关门了，”当我纠正第二点时，Gemini 说。“谢谢你发现这个过时的信息。”

我决定换个话题，让 Gemini Live 推荐一款游戏。

“我给你一个单词，你必须只使用原单词中的字母创建一个新单词，”聊天机器人提议道。这听起来很有吸引力——直到 Gemini Live 试图说服我“quiet”这个词可以用“cloud”中的字母组成。

是时候进行一项新活动了。无聊的时候，我问 Gemini Live 是否有任何有趣的内容。

“对心理健康意识的日益关注弊大于利，”Gemini 回应道。“通过病态化正常的人类情感和经历，我们正在创造一个过度依赖药物和治疗的一代，而不是培养复原力和应对机制。砰！ ”

Gemini Live 需要多排练

确实很辣——而且有争议！

当我问 Gemini Live 是否确定自己说了什么时，他们说：“这是旨在引发讨论的挑衅性言论，而不是对复杂问题的全面分析。”“对心理健康意识的日益关注无疑是一种积极的发展。”

优柔寡断

Gemini Live 对心理健康的争论表明，该机器人的回答多么不具体，令人恼火。即使它的回答看似有事实依据，但它们却很普通，没有太大用处。

以我的求职面试反馈为例。Gemini Live 建议我“集中精力准备面试”和“练习谈论我对这个行业的热情”。但即使在我要求提供更详细的笔记并具体提及我的答案后，Gemini 仍然坚持你在大学职业招聘会上可能会听到的那种宽泛的建议——例如“详细阐述你的想法”和“将挑战转化为积极因素”。

对于与时事有关的问题，比如正在进行的加沙战争和最近的谷歌搜索反垄断裁决，我发现 Gemini Live 基本正确——尽管有些冗长和啰嗦。本来可以写成一段话的答案却像讲课一样长，我发现自己不得不打断机器人，阻止它喋喋不休。等等等等。

Gemini Live 需要多排练

然而，Gemini Live 拒绝回应某些内容。我读了国会女议员南希·佩洛西 (Nancy Pelosi)对加州提出的AI 法案SB 1047的批评，读到一半时，机器人打断了我，说它“无法对选举和政治人物发表评论”。(看来 Gemini Live 暂时不会抢政治演讲撰稿人的工作。)

Gemini Live 需要多排练

我毫不犹豫地打断了 Gemini。但就这个问题而言，我确实认为需要做一些工作，让在与它交谈时插话感觉不那么尴尬。现在的情况是，Gemini Live 会降低声音，但当它检测到有人可能在说话时会继续说话。这让人感到不安——当 Gemini 喋喋不休时，你很难保持思路清晰——当出现失误时尤其令人恼火，比如当 Gemini 在背景中拾取噪音时。

寻找目标

如果我不提及 Gemini Live 的诸多技术问题，那我就太失职了。

首先，让它工作是一件苦差事。我按照Reddit 帖子中的步骤操作后，Gemini Live 才激活— 这些步骤不是特别直观，而且实际上根本不是必要的。

在我们聊天时，Gemini Live 的语音会莫名其妙地从回复中删去几个单词。要求它重复一遍会有所帮助，但聊天机器人可能需要多次尝试才能完整地说出答案。其他时候，Gemini Live 不会在第一次尝试时“听到”我的回复。我不得不反复点击 Gemini Live UI 中的“暂停”按钮，才能让机器人意识到我说了什么。

这与其说是一个错误，不如说是一个疏忽，但我要在这里指出，Gemini Live 不支持谷歌基于文本的 Gemini 聊天机器人的许多集成功能（至少目前还不支持）。这意味着你不能要求它总结你 Gmail 收件箱中的电子邮件或在 YouTube Music 上排队播放列表。

因此，我们只剩下一个基本的机器人，我们无法相信它能够正确完成任务，而且坦率地说，它只是一个平淡无奇的对话伙伴。

使用了几天后，我不确定 Gemini Live 到底有什么用处——尤其是考虑到它是谷歌每月 20 美元的Google One AI Premium Plan 的独家产品。也许一旦 Live 能够解读图像和实时视频，它就会真正发挥作用，谷歌表示，这项功能将在今年晚些时候的更新中推出。

但这个版本感觉像是一个原型。由于缺乏高级语音模式的表现力（公平地说，关于这种表现力是否是好事，存在争议），没有太多理由使用 Gemini Live 而不是基于文本的 Gemini 体验。事实上，我认为基于文本的 Gemini目前更有用。而这在 Live 上根本没有反映出什么好东西。

Gemini Live 也不是我的粉丝。

当我要求机器人仔细检查我与它的互动时，它说：“你直接质疑我的陈述或问题，而没有提供进一步的背景或解释。”“你的回答通常很简短，缺乏详尽的阐述，而且你经常突然转移话题，很难保持连贯的对话。”

Gemini Live 需要多排练

不错，Gemini Live。不错。