黄坚:大规模智算集群的管理与性能调优实践-24页

阅读 83 下载 0 格式 pdf 大小 5.23 MB 共24页2024-10-16 23:57:13发布于上海市
大规模智算集群的管理与性能调优实践天翼云云网产品事业部研发专家黄坚演讲嘉宾介绍黄坚天翼云研发专家研发方向:云原生、AI算力基础设施重点关注:•AI智算平台研发工作•大规模智算集群的性能诊断和调优•国产算力生态适配目录•大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望目录•大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望大模型分布式训练模型并行Ref:Megatron-LM:TrainingMulti-BillionParameterLanguageModelsUsingModelParallelism大模型分布式训练流水线并行•计算密度大模•显存要求高型并行•通信占比大算力标准化程度非常高数据并行智算集群工程化交付大规模智算交付:6阶58步1LLD设计2安装与...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

发表评论取消回复

参与评论可获取积分奖励  
嘿牛投研
结合工作实务分享各行业优质研报,一起洞见研报里的趋势、机会和热点。

文档

62884

收藏

10

店铺

企业店铺
广告位不存在!
确认删除?
VIP会员服务
限时9折优惠