4月28日(99)今天上午,以“计算网络照亮人工智能新时代”为主题的中国移动计算网络会议在苏州开幕。在会议主论坛上,中国工程院院士郑伟民介绍,基于英伟达GPU、国内人工智能芯片和超级计算机的三种支持大模型培训系统。
郑伟民指出,基于英伟达GPU的系统具有良好的硬件性能和良好的编程生态,但价格飙升,很难找到一张卡;基于国内人工智能芯片的系统面临着国内卡应用不足和生态系统需要改进的问题;至于基于超级计算机的系统,“目前有14个国家超级计算机中心,机器不是很全面,有可能使用软硬件协同设计在超级计算机上进行大型模型培训。”
郑伟民进一步指出,国内计算能力支持大模型培训,国内软件生态需要做几件事:
首先是编程框架,以降低编写人工智能模型的复杂性,使用基本算子快速构建人工智能模型,如Pytorch , TensorFlow。
二是平行加速,为多机多卡环境提供平行训练人工智能模型的能力,支持平行数据、平行模型、平行流水线、平行张量等。例如,微软DeepSpeed、英雄达Megatron-LM。
第三,通信库提供跨机跨卡通信能力,可以支持人工智能模型培训所需的各种通信模式,充分利用英伟达NCCL库、超级计算机普遍支持的MPI通信库等网络通信带宽。
第四,算子库提供了人工智能模型所需的基本操作的高性能实现,需要尽可能覆盖典型人工智能模型所需的操作,并要求算子库充分发挥基本硬件的性能,如英伟达CUDN,cnBLAS。
第五,人工智能编译器在异构处理器上生成高效的人工智能程序目标代码,并通过人工智能编译器自动生成高效的目标代码,如XLA、TVM。
第六,编程语言为异构处理器上的平行程序编写提供支持,要求基本算子覆盖底层硬件功能,发挥硬件性能,能够编写人工智能模型(Operator),例如,英伟达的CUDA,InteloneAPI。
第七,调度器提供高效调度大规模系统中人工智能任务的能力,设计高效调度算法,提高Kubernetes等集群资源利用率。S)、华为ModelArts。其中,内存分配系统根据人工智能应用的特点提供高效的内存分配策略,容错系统在硬件故障后提供快速恢复模型训练的能力,存储系统支持训练过程中有效的数据读写(检查点训练数据等)。
郑伟民强调:“国内人工智能芯片与行业领先水平存在一定差距,但如果生态良好,客户将感到满意,大多数任务不会因为芯片性能的小差异而明显感知。”