
Anthropic 的全新Claude 4 AI模型可以进行多步推理
在周四举行的首届开发者大会上,Anthropic 推出了两种新的人工智能模型,该公司声称这些模型是业内最好的,至少在流行基准测试中的得分方面是如此。
据 Anthropic 介绍,Claude Opus 4 和 Claude Sonnet 4 是 Anthropic 全新 Claude 4 模型系列的一部分,可以分析大型数据集、执行长期任务并执行复杂操作。Anthropic 表示,这两款模型都经过调优,在编程任务中表现优异,非常适合编写和编辑代码。
付费用户和公司免费聊天机器人应用程序的用户都可以访问 Sonnet 4,但只有付费用户才能访问 Opus 4。对于 Anthropic 的 API,通过亚马逊的 Bedrock 平台和谷歌的 Vertex AI,Opus 4 的定价为每百万代币(输入/输出)15 美元/75 美元,Sonnet 4 的定价为每百万代币(输入/输出)3 美元/15 美元。
标记是人工智能模型处理的原始数据。一百万个标记相当于约 75 万个单词——比《战争与和平》长约 16.3 万个单词。

Anthropic 的全新Claude 4 AI模型可以进行多步推理
图片来源: Anthropic
Anthropic 的 Claude 4 模型发布之际,该公司正寻求大幅提升收入。 据报道,这家由前 OpenAI 研究人员创立的公司的目标是在 2027 年实现 120 亿美元的收益,高于今年预计的 22 亿美元。Anthropic最近完成了一笔 25 亿美元的信贷安排,并从亚马逊和其他投资者那里筹集了数十亿美元的资金,以应对开发前沿模型的成本上升。
竞争对手的出现并没有让 Anthropic 在 AI 竞赛中保持领先地位变得轻松。尽管 Anthropic 在今年早些时候推出了一款新的旗舰 AI 模型Claude Sonnet 3.7,以及一款名为 Claude Code 的代理编码工具,但包括 OpenAI 和谷歌在内的竞争对手纷纷推出强大的模型和开发工具,力图超越 Anthropic。
Anthropic 正在与 Claude 4 展开激烈较量。
Anthropic 表示,在今天推出的两款机型中,Opus 4 性能更强大,能够在工作流程的多个步骤中保持“专注”。与此同时,据 Anthropic 称,Sonnet 4(旨在作为 Sonnet 3.7 的“简易替代品”)在编码和数学方面均有所改进,并且能够更精确地执行指令。
Anthropic 声称,Claude 4 家族参与“奖励黑客攻击”的可能性也低于 Sonnet 3.7 家族。奖励黑客攻击,也称为规范游戏,是指模型走捷径和钻漏洞来完成任务的行为。
需要明确的是,这些改进并未在所有基准测试中都产生出世界上最好的模型。例如,虽然 Opus 4 在用于评估模型编码能力的 SWE-bench Verified 测试中击败了谷歌的Gemini 2.5 Pro以及 OpenAI 的o3和GPT-4.1,但它在多模态评估 MMMU 或 GPQA Diamond(一组博士级别的生物、物理和化学相关问题)中却无法超越 o3。

Anthropic 的全新Claude 4 AI模型可以进行多步推理
Anthropic 内部基准测试的结果。
图片来源: Anthropic
尽管如此,Anthropic 在发布 Opus 4 时仍采取了更严格的安全措施,包括强化有害内容检测器和网络安全防御。该公司声称,其内部测试发现,Opus 4 可能“大幅提升”具有 STEM 背景人士获取、生产或部署化学、生物或核武器的能力,达到Anthropic 的“ASL-3”模型规范。
Anthropic 表示,Opus 4 和 Sonnet 4 都是“混合”模型——能够近乎即时地做出反应,并进行扩展思考以进行更深层次的推理(前提是 AI 能够像人类理解这些概念一样进行“推理”和“思考”)。开启推理模式后,模型可以在回答问题之前花更多时间考虑给定问题的可能解决方案。
Anthropic 表示,正如模型所言,它们会展示一个“用户友好型”的思维过程摘要。为什么不展示完整的内容呢?该公司在提供给 TechCrunch 的博客文章草稿中承认,部分原因是为了维护 Anthropic 的“竞争优势”。
Opus 4 和 Sonnet 4 可以并行使用多种工具,例如搜索引擎,并在推理和工具之间交替使用,以提高答案的质量。它们还可以提取事实并将其保存在“记忆”中,以便更可靠地处理任务,随着时间的推移,构建 Anthropic 所描述的“隐性知识”。
为了让模型更加方便程序员使用,Anthropic 正在对前面提到的 Claude Code 进行升级。Claude Code 允许开发人员直接从终端通过 Anthropic 的模型运行特定任务,现在它已与 IDE 集成,并提供 SDK,允许开发人员将其与第三方应用程序连接。
本周早些时候发布的 Claude Code SDK 支持在支持的操作系统上将 Claude Code 作为子进程运行,从而提供了一种构建利用 Claude 模型功能的 AI 驱动编码助手和工具的方法。
Anthropic 已发布适用于微软 VS Code、JetBrains 和 GitHub 的 Claude Code 扩展和连接器。GitHub 连接器允许开发人员标记 Claude Code,以响应审阅者的反馈,并尝试修复代码中的错误或以其他方式修改代码。
人工智能模型仍然难以编写高质量的软件。由于 在理解编程逻辑等方面存在缺陷,代码生成型人工智能往往会引入安全漏洞 和 错误。然而,它们有望提高编码效率,这促使企业和开发人员迅速采用它们。
Anthropic 敏锐地意识到了这一点,并承诺将更频繁地更新模型。
这家初创公司在其草稿中写道:“我们正在转向更频繁的模型更新,提供持续的改进,以便更快地为客户带来突破性的功能。这种方法使我们在不断完善和增强模型的同时,始终保持领先地位。”
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...