马斯克欲打造xAI算力超级工厂，数万H100 GPU投入组成巨型超算！

any · 发布于 2024-5-29 09:39:40

本帖最后由 any 于 2024-5-29 09:40 编辑

本月下旬，特斯拉创始人马斯克在一场投资者演讲中发言，表示为了发展他旗下的人工智能初创公司xAI，他计划将数万张专用芯片串联到一台巨型的超级计算机中，并将这台超级计算机称为“算力超级工厂”。马斯克向投资者透露，这台超级计算机预计连接10万块英伟达H100 GPU组成巨型超算，它的规模将至少是目前最大GPU集群的四倍。

据悉，马斯克自退出OpenAI团队，于去年7月创立了人工智能企业xAI，专注于人工智能技术的研发，公司创立的初衷正是挑战OpenAI和谷歌。去年11月，xAI推出旗下首款AI大模型聊天机器人Grok，能实时连接到其名下的的社交媒体平台X（原名：推特）。

目前，Grok的最新版本为3月底发布的Grok1.5，版本实现了长上下文理解和高级推理能力，可以处理128K token的长上下文窗口。马斯克称，为了让Grok“更加智能”，急需大量高性能的GPU投入训练下一版本的对话式 AI 聊天机器人 Grok。

据悉，xAI正在训练的Grok 2已经耗费了约2万块H100 GPU，训练进程一度因芯片短缺受阻，预计于今年5月训练完成。未来进阶版本的Grok 3可能需要高达10万块H100 GPU。

AI大模型训练是一个对计算资源要求极高的过程，它依赖大量的GPU计算单元来提供必要的算力支持。由于GPU在AI训练和推理中的关键作用，拥有大量GPU的集群成为了高性能计算资源的标志。

因此不少人工智能企业正在加速布局GPU算力集群，为自家的AI大模型训练和运行提供充足的算力来源。

在今年4月初，微软和OpenAI表示，合作建设一个名为「星际之门」的AI超级计算机，配备数百万专用的服务器芯片，为OpenAI旗下的AI模型训练推理提供算力支持，预计投入成本高达1150亿美元。这将是微软未来六年内计划建造的一系列设施中最大的一个。

在2022年初始，Meta和英伟达发布了一个大型AI研究超级计算机，其连接了6080个A100 GPU，可以提供五百亿亿次级的AI计算性能。全面部署后，这一超级计算机成为最大的英伟达DGX A100客户系统，用于训练具有超过1万亿个参数的AI模型。

然而，大部分的中小型人工智能初创公司，难以负担高昂且持续的GPU支出成本，AI大模型训练和推理的一度因GPU短缺、算力匮乏而难以推进。因此小编建议中小型创业公司可以选择像算力云（SuanLiX）这样的算力租赁平台，通过租用GPU、显卡或GPU云主机的形式，为模型训练提供充沛的算力资源。目前，算力云（SuanLiX）已在香港、福州、广东、甘肃区域部署算力服务，已上线RTX2080Ti、RTX3080、RTX3090、RTX4090、Tesla V100S、Tesla T4等显卡，型号齐全，价格实惠，用户可按需租赁。

在全球人工智能一波又一波的浪潮下，对高性能算力的需求无疑促成了英伟达的成功。根据英伟达发布的2025财年第一财季报告显示，总营收和数据中心收入连续多个季度创新高，分别同比增长262%和427%，净利润增超620%。

正如网友所说，人工智能时代下的英伟达就好比在淘金时代向一众科技巨头（唯一）出售挖黄金的铲子。

以上是算力云（SuanLiX）今日内容分享，欢迎读者们参与评论区互动！