苹果推出 300 亿参数多模态 AI 大模型 MM1.5,可识别 UI 界面推理自然语言

2024-10-13 www.dnxtw.com

电脑系统网 10 月 13 日消息,苹果现在是其多模态大模型 MM 推出 1.5 这个版本的模型是基于上一代的版本 MM1 在不同的训练周期中,我们将继续延续数据驱动的训练原则,重点研究混合不同类型数据对模型性能的影响。

目前,相关模型文档已发布 Hugging Face 在计算机系统网附论文地址如下(点击此访问)。

提供这个版本的模型 10 亿-300 具有图像识别和自然语言推理能力的参数规模超过1亿。苹果的研发人员在新版本中改进了数据混合策略,显著提高了模型在多文本图像理解、视觉引用和定位方面的能力(Grounding)以及多图像推理的能力。

参考论文,团队在 MM1.5 在持续预训阶段,引入了高质量的预训阶段 OCR 数据和合成图像描述显著提高了模型对包含大量文本的图像的理解。

此外,在监督微调阶段,研究人员分析了不同数据类型对模型性能的影响,优化了视觉指令微调数据的混合模式,从而提高了模型的效率。团队表示,即使是小型模型(10、30 1亿参数版)也能表现出色。

值得注意的是,苹果还推出了专门用于视频理解的产品 MM1.5-Video 移动设备用户界面的模型和特殊处理(UI)理解的 MM1.5-UI 模型,其中 MM1.5-UI 该模型有望在未来行动 iOS 幕后的“苹果品牌”AI,它可以处理各种视觉引用和定位任务,总结屏幕上的功能,或通过与用户的对话进行交互。

尽管 MM1.5 该模型在许多基准测试中表现良好,苹果团队仍计划进一步整合文本、图像和用户交互数据,设计更复杂的架构,以改进移动设备的模型 UI 理解能力,加强“苹果牌”AI 的实力。

广告声明:文本中包含的外部跳转链接(包括不限于超链接、二维码、密码等形式)用于传递更多信息,节省选择时间。结果仅供参考。计算机系统网络上的所有文章都包含了本声明。

相关阅读