十万块英伟达 H100 打造,马斯克宣布“全球最大 AI 训练集群”投入使用

2024-07-23 www.dnxtw.com

感谢电脑系统网友 西窗旧事 线索投递!

电脑系统网 7 月 23 马斯克现在宣布,孟菲斯超级计算机集群(Memphis Supercluster)当地时间凌晨  4:20 开始训练,谢谢 xAI 团队、X 团队、英伟达及其支持公司的贡献。(计算机系统网注:孟菲斯是田纳西州人口第二大城市)。

据马斯克介绍,该集群配备了 10 万个英伟达 H100 GPU,采用液冷散热,采用单一冷却 RDMA 网络互连架构是世界上最强大的 AI 训练集群。

从 GPU 从规模上看,这个集群已经完全超越了最新的 Top500 包括世界上最强大的超级计算机在内的任何超级计算机 Frontier(37888 个 AMD GPU)、Aurora(60000 个 Intel GPU)和微软 Eagle(14400 个 Nvidia H100 GPU)。

马斯克还透露,其目标是“今年” 12 世界上最强大的人工智能(Grok3)是在月前训练出来的,而孟菲斯超级计算机集群就是实现这一目标的优势。

在今年 3 本月敲定协议后,“超级计算机工厂”(Gigafactory of Compute)“几乎立即开始工作。上个月,经济发展组织大孟菲斯商会也证实了马斯克的旗帜 xAI 新的“超级计算机工厂”正在筹备中。

为达成协议,xAI 为了支持数据中心的发展,包括建设新的变电站和污水处理设施,已口头承诺改善孟菲斯的公共基础设施。

据孟菲斯电力、天然气和水务公司首席执行官估计,xAI 孟菲斯工厂每小时可以使用高达可能的工厂 150 兆瓦的电力,相当于 10 万户家庭需要电, XAI  预计每天至少需要 100 散热水万加仑。

孟菲斯市议会议员 Pearl Walker 上周说:“人们非常害怕。他们担心水资源和能源供应的问题。”

事实上,早在 5 月份,xAI 这意味着已经获得了 60 1亿美元(计算机系统网注:目前约: 437.14 用于1亿元人民币)的资金 AI 开发。目前,该公司已向其孟菲斯超级计算网站发布了光纤工头、网络工程师和项目经理等六项招聘信息。

相关阅读:

“买不如做:马斯克证实 xAI 与甲骨文扩大合作协议已终止,超级计算机训练已自行创建 Grok 大语言模型”

《马斯克:xAI 训练 Grok-3 大模型用了 10 万块英伟达 H100 芯片》

《马斯克:xAI 将于 8 月推出 Grok-2 大语言模型”

《为 Grok 提供计算能力,马斯克旗下 xAI 计划在美国孟菲斯开发超级计算机

广告声明:文本中包含的外部跳转链接(包括不限于超链接、二维码、密码等形式)用于传递更多信息,节省选择时间。结果仅供参考。计算机系统网络上的所有文章都包含了本声明。

相关阅读