清妃寺金雷
公众号QbitAI
隆重推出搭载纯国产GPU的万卡集群!
这也是中国首款兼容CUDA的全功能GPU。
这个拥有超过10000个高性能GPU的超级复杂项目有多少计算能力?
请直接透露答案,不要告诉任何人——
它具有超过10,000P 的总计算能力,专为训练具有数万亿参数级别的复杂大型模型而设计。
规模只是其功能之一。其他引人注目的功能包括:
有效计算效率(MFU) 目标高达60%,平均每周训练效率目标高达99% 以上,平均无故障运行天数超过15 天。它还以业界一流的通用场景设计为基准,以加速所有主要任务。 模型生态Day0级快速迁移,兼容CUDA 。 这就是最新的摩尔线程,被誉为“中国的NVIDIA”。升级自有智能计算中心全栈解决方案酷爱(KUAE)后的“开放法”。
纵观国内算力发展历程,仅今年上半年,多家“龙头企业”纷纷宣布推出万卡集群,“集体作战”之势十分活跃。
不过万卡的国产GPU肯定很少见。
再加上以生成式AI为主旋律的大规模模型的流行,缩放定律的“魔力”持续发挥作用,训练GPT-4所需的GPU数量达到25,000个。
我们还看到大规模模型架构出现了超越Transformer 的趋势,AI、3D 和HPC 的跨技术、跨领域融合不断加速。
因此,当前的技术对计算能力提出了更加精密、复杂、多样化的要求。——
万卡集群成为大型模型玩家的最低标配,国产GPU进入“万卡时代”。
摩尔线程创始人兼首席执行官张建中说道。
当前,我们正处于生成式人工智能的黄金时代,技术的交叉正在推动智能的出现,而GPU是加速新技术浪潮到来的创新引擎。
作为摩尔线程全栈AI战略的关键组成部分,夸e玩卡智能计算集群可以为每一层数字智能转型提供指数级计算能力。
在摩尔线程,我们希望解决最困难的事情,帮助国家和行业解决大规模计算能力不足的问题。
那么刚刚正式宣布1000ka集群的Moore Thread是如何在如此短的时间内成为第一个加入“10000ka俱乐部”的呢?
国产GPU万卡集群,是怎么“炼”成的?
在回答“提纯”方法之前,我们需要确认什么样的万卡簇适合目标——。
对此,张建中根据现状分析,提出了满足当前算力需求的“好用公式”。
易用性=规模+通用计算+绿色兼容性
这些只是最新的KUAE万卡集群的五个功能。
从更广泛的角度来看,首先也是最重要的是Wanka WanP强大的计算能力。
具体来说,升级后的KUAE 现在提供超过10,000 个卡的单集群规模和10Exa-Flops 的浮点计算能力。
同时,在GPU显存和传输带宽方面,显存容量达到了PB级别,卡间总互联带宽和节点总互联带宽也达到了PB级别,导致系统协同优化计算能力已经实现。全面提升显存和带宽、集群计算性能。
除了强大的计算能力之外,易用性的第二个重要因素是——有效计算效率(MFU)。
MFU作为衡量大规模模型训练效率的标准指标,可以直观地反映整个集群训练过程的效率。
通过系统软件、框架、算法等多个层面的彻底优化,KUAE万卡集群可以实现MFU值高达60%的大规模模型的高效训练。
OpenAI:单集群GPU数量为50000 + Google:单集群GPU数量为25000 + Meta:单集群GPU数量为24500 + Notbeat:单集群GPU数量为12888.大型模型玩家想要保持行业领先地位,就不能太慢地更新和迭代自己的大型模型,而目前每两周更新似乎已经成为标准。
那么Moore Thread要做的就是利用Wanka集群和全栈的方式构建一个大规模的模型训练超级加工厂,能够在计算能力上匹配当今大规模模型的快速变化。做。
所以就不难理解为什么摩尔之线要咬住这块硬骨头了。
那么下一个问题是:为什么摩尔线程可以做到这一点?
事实上,这不会在一夜之间发生。
事实上,团队已经明确了2022年集群建设的大方向和策略。因为当时A100的计算能力也很欠缺,国内市场急需一款能够做到这一点的产品。请交流。
在GPU能力方面,摩尔线程是国内唯一能够在功能上对标Nvidia的GPU公司。
随着2023 年大型模型变得更加普遍,GPU 集群的这一方向将变得更加精确。毕竟黄仁勋在发布B200时就说过,“我们需要更大的GPU,如果做不到,我们就会集成更多的GPU,那就是更大的虚拟GPU。”
现在看来,摩尔丝特当时的策略和决定肯定是积极的,因为他们为此做了认真的准备。
所以这归结为市场认知的问题。这次活动的照片将说明一切。
总体而言,摩尔线程在推动国产GPU的发展方面似乎总是积极主动、敢为人先,此次他们获得“中国第一”的称号也就不足为奇了。
此次全新升级的万卡解决方案能否抓住高端算力的到期日,还需要市场来回答。
- 就这样-
量子位QbitAI·今日头条签名
关注我们,第一时间了解最新技术动态
版权声明:本文转载于今日头条,版权归作者所有。如有侵权,请联系本站编辑删除。