苹果推出 300 亿参数多模态 AI 大模型 MM1.5，可识别 UI 界面推理自然语言

2024-10-13 www.dnxtw.com

电脑系统网 10 月 13 日消息，苹果现在是其多模态大模型 MM 推出 1.5 这个版本的模型是基于上一代的版本 MM1 在不同的训练周期中，我们将继续延续数据驱动的训练原则，重点研究混合不同类型数据对模型性能的影响。

目前，相关模型文档已发布 Hugging Face 在计算机系统网附论文地址如下(点击此访问)。

提供这个版本的模型 10 亿-300 具有图像识别和自然语言推理能力的参数规模超过1亿。苹果的研发人员在新版本中改进了数据混合策略，显著提高了模型在多文本图像理解、视觉引用和定位方面的能力（Grounding）以及多图像推理的能力。

参考论文，团队在 MM1.5 在持续预训阶段，引入了高质量的预训阶段 OCR 数据和合成图像描述显著提高了模型对包含大量文本的图像的理解。

此外，在监督微调阶段，研究人员分析了不同数据类型对模型性能的影响，优化了视觉指令微调数据的混合模式，从而提高了模型的效率。团队表示，即使是小型模型（10、30 1亿参数版)也能表现出色。

值得注意的是，苹果还推出了专门用于视频理解的产品 MM1.5-Video 移动设备用户界面的模型和特殊处理（UI）理解的 MM1.5-UI 模型，其中 MM1.5-UI 该模型有望在未来行动 iOS 幕后的“苹果品牌”AI，它可以处理各种视觉引用和定位任务，总结屏幕上的功能，或通过与用户的对话进行交互。

尽管 MM1.5 该模型在许多基准测试中表现良好，苹果团队仍计划进一步整合文本、图像和用户交互数据，设计更复杂的架构，以改进移动设备的模型 UI 理解能力，加强“苹果牌”AI 的实力。

广告声明：文本中包含的外部跳转链接（包括不限于超链接、二维码、密码等形式）用于传递更多信息，节省选择时间。结果仅供参考。计算机系统网络上的所有文章都包含了本声明。

苹果推出 300 亿参数多模态 AI 大模型 MM1.5，可识别 UI 界面推理自然语言

消息称苹果 AR 眼镜 2026 年量产：Micro LED 技术，迎战 Meta Orion

Canalys：2024 年二季度全球 PC 出货量同比增长 3.4%，苹果 Mac 表现抢眼

时代落幕，苹果宣布 iPhone 6、iPod nano 及 shuffle 彻底停产