Ai2的新型小型AI模型的表现优于谷歌、Meta等类似规模的模型

看来，这是小型人工智能模型的一周。

非营利性人工智能研究机构Ai2周四发布了Olmo 2 1B 模型，这是一个拥有 10 亿个参数的模型，Ai2 声称该模型在多个基准测试中均优于谷歌、Meta 和阿里巴巴的类似规模的模型。参数（有时也称为权重）是模型的内部组成部分，用于指导模型的行为。

Olmo 2 1B在 AI 开发平台 Hugging Face 上以 Apache 2.0 许可证的形式提供。与大多数模型不同，Olmo 2 1B 可以从头开始复制，因为 Ai2 提供了用于开发它的代码和数据集（Olmo-mix-1124和Dolmino-mix-1124）。

小型模型的功能可能不如大型模型强大，但重要的是，它们不需要强大的硬件来运行。这使得它们更容易被那些受制于低端硬件和消费级机器限制的开发者和爱好者所接受。

过去几天，从微软的Phi 4推理系列到Qwen的2.5 Omni 3B，一系列小型机型相继发布。包括Olmo 2 1B在内的大多数机型都能够在现代笔记本电脑甚至移动设备上轻松运行。

Ai2 表示，Olmo 2 1B 的训练基于一个包含 4 万亿个 token 的数据集，这些 token 来自公开来源、AI 生成和手动创建的来源。token 是模型提取和生成的原始数据，100 万个 token 相当于约 75 万个单词。

在衡量算术推理能力的基准测试中，GSM8K 的 Olmo 2 1B 得分高于谷歌的 Gemma 3 1B、Meta 的 Llama 3.2 1B 和阿里巴巴的 Qwen 2.5 1.5B。在评估事实准确性的测试 TruthfulQA 上，Olmo 2 1B 的表现也超越了这三个模型。

然而，Ai2 警告称，Olmo 2 1B 存在风险。该组织表示，与所有人工智能模型一样，它可能产生“有问题的输出”，包括有害和“敏感”内容，以及与事实不符的陈述。因此，Ai2 建议不要在商业环境中部署 Olmo 2 1B。

Kyle Wiggers 是 TechCrunch 的 AI 编辑。他的文章曾发表于 VentureBeat 和 Digital Trends，以及 Android Police、Android Authority、Droid-Life 和 XDA-Developers 等一系列科技博客。他与伴侣（一位音乐治疗师）居住在曼哈顿。

与欧洲顶级投资人才进行内部交流 — — 包括来自 Monzo、Accel、Paladin Group 等公司的领导人 — — 以及 StrictlyVC London 的顶级交流。

Orb 是 Ookla 前首席执行官推出的一款新应用，可以更全面地展现你的互联网连接情况

Duolingo 宣布计划用人工智能取代承包商，并推出了 148 门人工智能课程

微软首席执行官称公司多达 30% 的代码是由人工智能编写的

自去年年初以来，Google Play 应用数量下降了 47%

谷歌推出人工智能工具，通过个性化课程练习语言

印度法院下令封锁 Proton Mail

Hugging Face 推出 3D 打印机械