• 首页
  • 报告
  • 资讯
  • 快讯
  • 图表
  • Ai问答
  • 网址导航

中国移动研究院:全调度以太网技术架构白皮书

2023-6-9 10:08| 发布者: 何建秋26 0

摘要: 中国移动研究院发布全调度以太网技术架构白皮书,旨在打造无阻塞、高带宽及超低时延的新型智算中心网络,助力AIGC等高性能业务快速发展。其中,GPU算力部署规模达到万卡级别,GPT3.5参数规模为1750亿,需要借助由1万颗V100GPU组成的高性能网络集群等,分布式并行计算成为实现AI大模型训练的关键手段。而全调度以太网技术方案(GSE)可满足智算中心网络高性能、低时延的需求。

目前,AIGC(AI-Generated Content,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长,全球范围内经济价值预计将达到数万亿美元。在中国市场,AIGC的应用规模有望在2025年突破2000亿元,这一巨大的潜力吸引着业内领军企业竞相推出千亿、万亿级参数量的大模型,底层GPU算力部署规模也达到万卡级别。以GPT3.5为例,参数规模达1750亿,作为训练数据集的互联网文本量也超过45TB,其训练过程依赖于微软专门建设的AI超算系统,以及由1万颗V100GPU组成的高性能网络集群,总计算力消耗约为3640 PF-days(即每秒一千万亿次计算,运行3640天)。


分布式并行计算是实现AI大模型训练的关键手段,通常包含数据并行、流水线并行及张量并行等多种并行计算模式。所有并行模式均需要多个计算设备间进行多次集合通信操作。另外,训练过程中通常采用同步模式,多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算。智算中心网络作为底层通信连接底座,需要具备高性能、低时延的通信能力。一旦网络性能不佳,就会影响分布式训练的质量和速度。


面向未来智算中心规模建设和AI大模型发展及部署需求,中国移动联合多家合作伙伴推出了全调度以太网技术方案(GSE),打造无阻塞、高带宽及超低时延的新型智算中心网络,助力AIGC等高性能业务快速发展。


报告出品/作者:中国移动研究院





 免责声明:本文版权归原发布机构及作者,如涉及侵权请联系删除。本文仅供参考,如需使用相关信息请参阅报告原文。

 获取PDF完整版报告下载方式请关注:报告派