中国移动研究院：全调度以太网技术架构白皮书

2023-6-9 10:08| 发布者: 何建秋26 0

摘要: 中国移动研究院发布全调度以太网技术架构白皮书，旨在打造无阻塞、高带宽及超低时延的新型智算中心网络，助力AIGC等高性能业务快速发展。其中，GPU算力部署规模达到万卡级别，GPT3.5参数规模为1750亿，需要借助由1万颗V100GPU组成的高性能网络集群等，分布式并行计算成为实现AI大模型训练的关键手段。而全调度以太网技术方案(GSE)可满足智算中心网络高性能、低时延的需求。

目前，AIGC(AI-Generated Content,人工智能生产内容)发展迅猛，迭代速度呈现指数级增长，全球范围内经济价值预计将达到数万亿美元。在中国市场，AIGC的应用规模有望在2025年突破2000亿元，这一巨大的潜力吸引着业内领军企业竞相推出千亿、万亿级参数量的大模型，底层GPU算力部署规模也达到万卡级别。以GPT3.5为例，参数规模达1750亿，作为训练数据集的互联网文本量也超过45TB,其训练过程依赖于微软专门建设的AI超算系统，以及由1万颗V100GPU组成的高性能网络集群，总计算力消耗约为3640 PF-days(即每秒一千万亿次计算，运行3640天)。

分布式并行计算是实现AI大模型训练的关键手段，通常包含数据并行、流水线并行及张量并行等多种并行计算模式。所有并行模式均需要多个计算设备间进行多次集合通信操作。另外，训练过程中通常采用同步模式，多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算。智算中心网络作为底层通信连接底座，需要具备高性能、低时延的通信能力。一旦网络性能不佳，就会影响分布式训练的质量和速度。

面向未来智算中心规模建设和AI大模型发展及部署需求，中国移动联合多家合作伙伴推出了全调度以太网技术方案(GSE),打造无阻塞、高带宽及超低时延的新型智算中心网络，助力AIGC等高性能业务快速发展。

报告出品/作者：中国移动研究院