据称,Mistral AI 的最新模型Mistral Large 2 (ML2) 可以与 OpenAI、Meta 和 Anthropic 等行业领导者的大型模型相媲美,尽管其规模只是后者的一小部分。
此次发布的时间值得注意,恰逢 Meta 发布其庞大的 4050 亿参数Llama 3.1模型的同一周。ML2 和 Llama 3 都拥有令人印象深刻的功能,包括 128,000 个令牌上下文窗口,用于增强“记忆”和支持多种语言。
Mistral AI 长期以来一直专注于语言多样性,而 ML2 也延续了这一传统。该模型支持“数十种”语言和 80 多种编码语言,使其成为全球开发人员和企业的多功能工具。
根据 Mistral 的基准测试,ML2 在各种语言、编码和数学测试中的表现可与 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Meta 的 Llama 3.1 405B 等顶级模型相媲美。
在广受认可的大规模多任务语言理解 (MMLU) 基准测试中,ML2 的得分为 84%。虽然略逊于竞争对手(GPT-4o 为 88.7%,Claude 3.5 Sonnet 为 88.3%,Llama 3.1 405B 为 88.6%),但值得注意的是,人类领域专家估计在这项测试中的得分约为 89.8%。
效率:关键优势
ML2 的与众不同之处在于,它能够以比竞争对手少得多的资源实现高性能。ML2 拥有 1230 亿个参数,大小不到 Meta 最大模型的三分之一,约为 GPT-4 的十四分之一。这种效率对于部署和商业应用具有重大意义。
在完全 16 位精度下,ML2 需要大约 246GB 的内存。虽然这对于单个 GPU 来说仍然太大,但它可以轻松部署在具有四到八个 GPU 的服务器上,而无需进行量化——对于 GPT-4 或 Llama 3.1 405B 等较大的模型来说,这一壮举不一定能够实现。
Mistral 强调,ML2 占用空间更小意味着吞吐量更高,因为 LLM 性能很大程度上取决于内存带宽。实际上,这意味着 ML2 可以比相同硬件上的大型模型更快地生成响应。
应对关键挑战
Mistral 的首要任务是解决幻觉问题——这是一个常见问题,AI 模型会生成令人信服但不准确的信息。该公司声称,ML2 已经进行了微调,其响应更加“谨慎和敏锐”,并且能够更好地识别何时缺乏足够的信息来回答查询。
此外,ML2 的设计还使其能够出色地遵循复杂的指令,尤其是在较长的对话中。这种提示遵循能力的改进可以使该模型在各种应用中更加通用和用户友好。
为了满足实际业务需求,Mistral 优化了 ML2,以便在适当的情况下生成简洁的响应。虽然详细的输出可以提高基准分数,但它们通常会导致计算时间和运营成本增加——这一考虑因素可能会使 ML2 在商业用途上更具吸引力。
许可和可用性
虽然 ML2 在Hugging Face等热门存储库上可以免费获取,但其许可条款比 Mistral之前的一些产品更为严格。
与用于 Mistral-NeMo-12B 模型的开源 Apache 2 许可证不同,ML2 是在Mistral 研究许可证下发布的。这允许非商业和研究用途,但商业应用需要单独的商业许可证。
随着人工智能竞赛的升温,Mistral 的 ML2 代表着在平衡功率、效率和实用性方面迈出了重要一步。它是否真的可以挑战科技巨头的主导地位还有待观察,但它的发布无疑为大型语言模型领域增添了令人兴奋的新内容。