通用加速卡架构
DCU Z100L加速卡基于通用GPGPU架构设计,更加适合为人工智能计算提供强大的算力。Z100L拥有60组计算单元,共计3840个计算核心,超高速32GB HBM2内存和高达1TB/s的内存带宽,可以完美支持深度学习场景。
开放软件生态
DCU Z100L支持开源软件开发环境,兼容CUDA生态,原生支持TensorFlow, Pytorch和Paddle等深度学习框架和多种第三方组件,无需繁琐的移植工作即可实现业务高效便捷迁移。
全面算力覆盖
DCU Z100L可以提供多样丰富的算力资源,可实现32位单精度、16位半精度和8位整型算力的全面覆盖,从而能同时胜任人工智能训练和人工智能推理的全面应用需求,更适合构建新一代综合型智能计算平台。
主要参数
开放软件平台
基于DCU硬件提供完整的软件工具链,以DTK为基础软件层为开发者提供运行、编译、调试和性能分析等功能;提供多种深度优化的计算加速库,原生支持TensorFlow/Pytorch/Paddle等深度学习框架以及Open-mmlab/Vision/FastMoe等三方组件,提供FP32/FP16/INT8等多精度训练和推理支持,覆盖计算机视觉、智能语音、智能文本、推荐系统和强化学习等多个人工智能领域。
整机系统方案
> X7340H0
● 2x DCU轻量训练/ 推理
● 双路海光7000CPU
● 支持2块DCU Z100L或8块HHHL加速卡
● 支持多种AI训练,推理场景应用负载
> X7840H0
● 8x DCU高端训练
● 双路海光7000CPU
● 支持8块DCU Z100L或8块FHFL加速卡
● 用于高性能AI训练集群部署
飞桨与海光人工智能加速卡DCU系列完成互证
近日,百度飞桨深度学习框架与海光人工智能加速卡DCU系列进行了安装部署测试、基本功能测试和稳定性兼容性测试,联合测试结果显示百度飞桨深度学习框架在海光DCU系列以及海光3000、5000、7000系列CPU环境上均能顺利安装,可以可靠、稳定、高性能地运行,满足用户的关键性应用需求。
飞桨框架ROCm版安装说明及测试环境说明:
本次适配及测试工作是由飞桨团队和海光团队基于海光7000系列CPU以及海光DCU-Z100深度计算处理器芯片,在CentOS7.6操作系统下进行了相关性测试。目前飞桨框架ROCm版支持基于海光CPU和DCU的Python的训练和原生预测,当前支持的飞桨框架ROCm版本为4.0.1, 飞桨框架版本为2.1.0,提供两种安装方式:
通过预编译的wheel包安装通过源代码编译安装
表1:软件环境
表2:硬件环境
飞桨框架ROCm版支持模型:
当前在海光DCU芯片上进行过80+模型的官方验证,验证包括有图像分类(PaddleClas)、目标检测(PaddleDetection)、图像分割(PaddleSeg)、文字识别(PaddleOCR)、生成对抗网络(PaddleGAN)、自然语言处理(PaddleNLP)、推荐(PaddleRec)、语音(Parakeet)类别的模型。下表是支持的部分目标检测类模型的情况,完整支持信息请见:
飞桨官网 > 文档 >使用教程 >硬件支持 > 海光DCU芯片运行飞桨 > 飞桨框架ROCm版支持模型。
(文档链接:
https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/09_hardware_support/rocm_docs/paddle_rocm_cn.html )
飞桨框架ROCm版训练及预测:
训练:使用海光CPU/DCU进行训练与使用Intel CPU/Nvidia GPU训练相同,当前飞桨框架ROCm版本完全兼容飞桨框架 CUDA版本的API,直接使用原有的GPU训练命令和参数即可。
预测:使用海光CPU/DCU进行预测与使用Intel CPU/Nvidia GPU预测相同,支持飞桨原生推理库(Paddle Inference),适用于高性能服务器端、云端推理。当前飞桨框架 ROCm版本 完全兼容飞桨框架 CUDA版本的 C++/Python API,直接使用原有的GPU预测命令和参数即可。
完整训练及预测示例可参考官网海光DCU芯片运行飞桨文档。
|