Anthropic 的全新Claude 4 AI模型可以进行多步推理

在周四举行的首届开发者大会上，Anthropic 推出了两种新的人工智能模型，该公司声称这些模型是业内最好的，至少在流行基准测试中的得分方面是如此。

据 Anthropic 介绍，Claude Opus 4 和 Claude Sonnet 4 是 Anthropic 全新 Claude 4 模型系列的一部分，可以分析大型数据集、执行长期任务并执行复杂操作。Anthropic 表示，这两款模型都经过调优，在编程任务中表现优异，非常适合编写和编辑代码。

付费用户和公司免费聊天机器人应用程序的用户都可以访问 Sonnet 4，但只有付费用户才能访问 Opus 4。对于 Anthropic 的 API，通过亚马逊的 Bedrock 平台和谷歌的 Vertex AI，Opus 4 的定价为每百万代币（输入/输出）15 美元/75 美元，Sonnet 4 的定价为每百万代币（输入/输出）3 美元/15 美元。

标记是人工智能模型处理的原始数据。一百万个标记相当于约 75 万个单词——比《战争与和平》长约 16.3 万个单词。

Anthropic 的全新Claude 4 AI模型可以进行多步推理

图片来源： Anthropic
Anthropic 的 Claude 4 模型发布之际，该公司正寻求大幅提升收入。据报道，这家由前 OpenAI 研究人员创立的公司的目标是在 2027 年实现 120 亿美元的收益，高于今年预计的 22 亿美元。Anthropic最近完成了一笔 25 亿美元的信贷安排，并从亚马逊和其他投资者那里筹集了数十亿美元的资金，以应对开发前沿模型的成本上升。

竞争对手的出现并没有让 Anthropic 在 AI 竞赛中保持领先地位变得轻松。尽管 Anthropic 在今年早些时候推出了一款新的旗舰 AI 模型Claude Sonnet 3.7，以及一款名为 Claude Code 的代理编码工具，但包括 OpenAI 和谷歌在内的竞争对手纷纷推出强大的模型和开发工具，力图超越 Anthropic。

Anthropic 正在与 Claude 4 展开激烈较量。

Anthropic 表示，在今天推出的两款机型中，Opus 4 性能更强大，能够在工作流程的多个步骤中保持“专注”。与此同时，据 Anthropic 称，Sonnet 4（旨在作为 Sonnet 3.7 的“简易替代品”）在编码和数学方面均有所改进，并且能够更精确地执行指令。

Anthropic 声称，Claude 4 家族参与“奖励黑客攻击”的可能性也低于 Sonnet 3.7 家族。奖励黑客攻击，也称为规范游戏，是指模型走捷径和钻漏洞来完成任务的行为。

需要明确的是，这些改进并未在所有基准测试中都产生出世界上最好的模型。例如，虽然 Opus 4 在用于评估模型编码能力的 SWE-bench Verified 测试中击败了谷歌的Gemini 2.5 Pro以及 OpenAI 的o3和GPT-4.1，但它在多模态评估 MMMU 或 GPQA Diamond（一组博士级别的生物、物理和化学相关问题）中却无法超越 o3。

Anthropic 的全新Claude 4 AI模型可以进行多步推理

Anthropic 内部基准测试的结果。
图片来源： Anthropic
尽管如此，Anthropic 在发布 Opus 4 时仍采取了更严格的安全措施，包括强化有害内容检测器和网络安全防御。该公司声称，其内部测试发现，Opus 4 可能“大幅提升”具有 STEM 背景人士获取、生产或部署化学、生物或核武器的能力，达到Anthropic 的“ASL-3”模型规范。

Anthropic 表示，Opus 4 和 Sonnet 4 都是“混合”模型——能够近乎即时地做出反应，并进行扩展思考以进行更深层次的推理（前提是 AI 能够像人类理解这些概念一样进行“推理”和“思考”）。开启推理模式后，模型可以在回答问题之前花更多时间考虑给定问题的可能解决方案。

Anthropic 表示，正如模型所言，它们会展示一个“用户友好型”的思维过程摘要。为什么不展示完整的内容呢？该公司在提供给 TechCrunch 的博客文章草稿中承认，部分原因是为了维护 Anthropic 的“竞争优势”。

Opus 4 和 Sonnet 4 可以并行使用多种工具，例如搜索引擎，并在推理和工具之间交替使用，以提高答案的质量。它们还可以提取事实并将其保存在“记忆”中，以便更可靠地处理任务，随着时间的推移，构建 Anthropic 所描述的“隐性知识”。

为了让模型更加方便程序员使用，Anthropic 正在对前面提到的 Claude Code 进行升级。Claude Code 允许开发人员直接从终端通过 Anthropic 的模型运行特定任务，现在它已与 IDE 集成，并提供 SDK，允许开发人员将其与第三方应用程序连接。

本周早些时候发布的 Claude Code SDK 支持在支持的操作系统上将 Claude Code 作为子进程运行，从而提供了一种构建利用 Claude 模型功能的 AI 驱动编码助手和工具的方法。

Anthropic 已发布适用于微软 VS Code、JetBrains 和 GitHub 的 Claude Code 扩展和连接器。GitHub 连接器允许开发人员标记 Claude Code，以响应审阅者的反馈，并尝试修复代码中的错误或以其他方式修改代码。

人工智能模型仍然难以编写高质量的软件。由于在理解编程逻辑等方面存在缺陷，代码生成型人工智能往往会引入安全漏洞和错误。然而，它们有望提高编码效率，这促使企业和开发人员迅速采用它们。

Anthropic 敏锐地意识到了这一点，并承诺将更频繁地更新模型。

这家初创公司在其草稿中写道：“我们正在转向更频繁的模型更新，提供持续的改进，以便更快地为客户带来突破性的功能。这种方法使我们在不断完善和增强模型的同时，始终保持领先地位。”