一、训练所需的算力呈几何倍增长
这个GPU集群由一万片英伟达H100 GPU组成,能提供340 FP64 PFLOPS的峰值算力,为AI提供39.58 INT8 ExaFLOPS的峰值算力。
这个算力峰值超过了之前全世界排名第四的超算Leonardo所能提供的算力。凭借这台超级计算机,特斯拉可以迅速训练并更新它的全自动驾驶(FSD)技术。这个H100 集群不仅让特斯拉相比其他汽车制造商更具竞争力,而且将使特斯拉拥有夸张的算力储备。
值得关注的是,在实现AI的过程中,训练和推理是必不可少的。同时相比于推理,训练所需的算力是几何倍的增长。天风证券以A100服务器和H100服务器作为样本,基于GPT-3模型估算了训练阶段的算力得出:
假设应用A100 640GB服务器进行训练,该服务器AI算力性能为5 PFLOPS,最大功率为6.5 kw,则测算训练阶段需要服务器数量=训练阶段算力需求÷服务器AI算力性能=2.96×108台(同时工作1秒),即3423台服务器工作1日。
二、GPU短缺情况至少会持续到明年
受大模型热潮提振,算力市场需求旺盛,算力服务器呈现持续紧缺状态,配货周期偏长。服务器厂商预计普遍要等6个月以上才能拿到最新的GPU,GPU短缺情况至少会持续到明年。
数据显示,以GPU为主的人工智能算力近年来呈快速增长态势。2016年,整个算力结构中,国内人工智能算力比例只占3%左右,而到2022年该比重已超50%。据中信证券测算,为满足现在ChatGPT日常访问使用场景的算力,基于1亿用户保守测算,GPU需求量在23.3亿美元。若搜索平台均搭载类ChatGPT功能,预计对于GPGPU的需求将增加136.3亿美元。
随着在类GPT基础模型上开发的应用程序逐渐增多,有望打开千行百业的海量应用场景,对于算力的需求将显著提升。
三、相关上市公司:海光信息、胜宏科技、景嘉微
海光信息的DCU产品以GPGPU架构为基础,兼容“类CUDA”环境,具备丰富软硬件生态,已在北京大学高性能计算系统及百度飞桨AI大框架中应用落地。
胜宏科技的高密度多层VGA显卡PCB板市场份额全球第一,有为英伟达AI服务器供应PCB。
景嘉微是国产GPU龙头。公司在图形处理芯片领域,成功自主研发了一系列具有自主知识产权的GPU芯片,公司JM9系列图形处理芯片已完成流片、封装阶段工作及初步测试工作。