DeepMind声称其最新的AI 工具能够解决数学和科学问题

谷歌的人工智能研发实验室 DeepMind 表示，它已经开发出一种新的人工智能系统，以“机器可分级”的解决方案解决问题。

DeepMind 表示，在实验中，这个名为AlphaEvolve的系统可以帮助优化谷歌用于训练其 AI 模型的部分基础设施。该公司表示，正在构建一个用于与 AlphaEvolve 交互的用户界面，并计划在可能进行更广泛推广之前，先为选定的学者推出一个早期访问计划。

大多数人工智能模型都会产生幻觉。由于其概率架构，它们有时会自信地编造一些事情。事实上，像 OpenAI 的 o3 这样的较新的人工智能模型比它们的前辈更容易产生幻觉，这说明了这个问题的挑战性。

AlphaEvolve 引入了一种巧妙的机制来减少幻觉：自动评估系统。该系统使用模型生成、评估并得出一个问题的可能答案池，并自动评估和评分答案的准确性。

DeepMind AlphaEvolve
DeepMind 实验室表示，其 AlphaEvolve 系统旨在供领域专家使用

DeepMind声称其最新的AI 工具能够解决数学和科学问题

图片来源： DeepMind
AlphaEvolve 并非首个采用此策略的系统。几年前，包括 DeepMind 团队在内的研究人员已在多个数学领域应用了类似的技术。但 DeepMind 声称，AlphaEvolve 使用的是“最先进的”模型——特别是 Gemini 模型——使其能力远超早期的人工智能实例。

要使用 AlphaEvolve，用户必须向系统提出一个问题，并可选地包含指令、公式、代码片段和相关文献等详细信息。用户还必须提供一种机制，以公式的形式自动评估系统的答案。

由于 AlphaEvolve 只能解决能够自我评估的问题，因此该系统只能处理特定类型的问题——特别是计算机科学和系统优化等领域的问题。另一个主要限制是，AlphaEvolve 只能将解决方案描述为算法，这使得它不太适合解决非数值问题。

为了对 AlphaEvolve 进行基准测试，DeepMind 让该系统尝试了一组精心挑选的约 50 道数学题，涵盖从几何到组合学的各个领域。DeepMind 声称，AlphaEvolve 在 75% 的情况下能够“重新发现”这些问题最广为人知的答案，并在 20% 的情况下找到改进的解决方案。

DeepMind 还对 AlphaEvolve 的实际问题进行了评估，例如如何提升谷歌数据中心的效率，以及加快模型训练速度。据该实验室称，AlphaEvolve 生成的算法平均可持续回收谷歌全球 0.7% 的计算资源。该系统还提出了一项优化建议，将谷歌训练其 Gemini 模型的总时间缩短了 1%。

需要明确的是，AlphaEvolve 并没有取得突破性发现。在一项实验中，该系统发现了谷歌 TPU AI 加速器芯片设计的改进，而这一改进此前已被其他工具标记过。

然而，DeepMind 和许多人工智能实验室一样，都认为 AlphaEvolve 可以节省时间，让专家们专注于其他更重要的工作。