应用

技术

物联网世界 >> 物联网新闻 >> 物联网热点新闻
企业注册个人注册登录

摩尔线程夸娥智算中心扩展至万卡规模,具备万 P 级浮点运算能力

2024-07-04 08:50 IT之家

导读:摩尔线程宣布,其 AI 旗舰产品夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模。

  7 月 3 日消息,摩尔线程宣布,其 AI 旗舰产品夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模

  摩尔线程夸娥万卡智算集群,以全功能 GPU 为底座,打造能够承载万卡规模、具备万 P 级浮点运算能力的国产通用加速计算平台,专为万亿参数级别的复杂大模型训练而设计。

  夸娥万卡智算解决方案具备以下核心特性:

  万卡万 P:夸娥智算集群实现单集群规模超万卡,浮点运算能力达到 10Exa-Flops,达到 PB 级的超大显存总容量、每秒 PB 级的超高速卡间互联总带宽和每秒 PB 级超高速节点互联总带宽。

  长稳训练:摩尔线程夸娥万卡集群平均无故障运行时间超过 15 天,最长可实现大模型稳定训练 30 天以上,周均训练有效率在 99% 以上,远超行业平均水平。

  高 MFU:夸娥万卡集群在系统软件、框架、算法等层面一系列优化,实现大模型的高效率训练,MFU(评估大模型训练效率的通用指标)最高可达到 60%。

  生态友好:可加速 LLM、MoE、多模态、Mamba 等不同架构、不同模态的大模型。基于 MUSA 编程语言、完整兼容 CUDA 能力和自动化迁移工具 Musify,加速新模型“Day0”级迁移。

  IT之家获悉,摩尔线程将开展三个万卡集群项目,分别为青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目。