华为徐直军:不是每个企业都要训练自己的基础大模型

2024-09-19 www.dnxtw.com

9 月 19 今天下午,在今天的华为全联接大会上 2024 华为副董事长、轮值董事长徐志军发表主题演讲《拥抱全面智能时代》。

他说,智能必须是一个长期的过程,计算能力是智能的关键基础。计算能力依赖于半导体技术,但我们必须面对美国在美国的现实 AI 芯片领域对中国的制裁不会长期取消,而中国的半导体制造过程将长期落后,因为它也受到美国的制裁,这意味着我们可以制造的芯片的先进性将受到限制。这是我们在构建算力解决方案时必须面临的挑战。

在中国的基础上,只有基于实际可获得的芯片制造过程的计算能力才是长期可持续的。华为的战略核心是充分抓住人工智能变革的机遇,基于芯片制造过程、计算、存储和网络技术的协同创新,创建计算架构,创建“超级节点” 集群系统计算能力解决方案,长期持续满足计算能力需求。

他提到,大型模型的技术突破极大地加速了智能化进程。一段时间以来,各行各业几乎一定要称之为大型模型,纷纷建设。 AI 计算能力,纷纷训练大模型。对于像华为这样的计算能力提供商来说,这无疑是一个巨大的好处。但从长远发展的角度来看,首先,并非每个企业都必须大规模建设 AI 算力。AI 特别是服务器 AI 计算能力集群不同于通用 x86 服务器对供电、散热等数据中心机房的环境要求很高,而且随着大型模型的增加,AI 计算能力也会走向更大的规模,而且节奏变化很快,AI 随着服务器的快速升级,数据中心机房面临着浪费或无法满足需求的困境。每个企业都应该考虑适合自己的收获 AI 计算能力的方式不仅仅是建立自己 AI 算力。

第二,并不是每个企业都要训练自己的基本大模型。训练基本的大模型,关键是数据,准备足够的高质量数据是一个巨大的挑战,基本的大模型预训练数据进入 10 万亿 tokens 对于企业来说,量级不仅意味着成本高,而且是否能获得足够的数据量也是一个挑战。模型迭代训练通常需要几个月到几年的时间才能完成,基础大模型参数不断增加,模型迭代和优化难度大。每个企业都应该专注于自己的核心业务,自我培训的基本大模型会影响 AI 尽快赋予核心业务权力。

第三,并非所有的应用都应该追求“大”模型。从华为盘古在行业的实践来看,10亿参数模型可以满足降雨预测、药物分子优化、工艺参数预测等科学计算、预测决策等业务场景的需求 PC、10亿参数模型也广泛应用于手机等端设备。100亿参数模型可以满足面向 NLP、CV、对知识问答、代码生成、座位助手、安全检测等特定领域场景的多模态等大量需求。面向 NLP、可以使用千亿参数模型来完成多模态的复杂任务。

“因此,我们认为企业需要的是根据不同的业务场景需求选择最合适的模型,通过多模型组合解决问题,创造价值。”

广告声明:文本中包含的外部跳转链接(包括不限于超链接、二维码、密码等形式)用于传递更多信息,节省选择时间。结果仅供参考。计算机系统网络上的所有文章都包含了本声明。

相关阅读