DeepSeek系统软件优化总结

阅读 88 格式 pdf 大小 9.94 MB 共15页2025-02-26 15:38:37发布于浙江

立即下载加入VIP

海报

/15

立即下载加入VIP

文本预览下载提示常见问题

DeepSeek系统软件优化总结翟季冬清华大学计算机系＞1＜DeepSeekV3公开的预训练成本按照H800GPU每小时每卡2美元租赁成本，全部训练成本：5,576,000美元不包括前期探索模型架构、消融实验等开销预训练时间估计：2048张H800计算：~54天10000张H800计算：~11天DeepSeek公开的V3训练成本＞2＜主要模型参数DeepSeekV3模型参数：671B参数（GPT-3：175B、GPT-4：1.76T?）每个token激活37B参数、~5.5%61层Transformer、Hiddendimension：7168FFNàMoE：1共享专家（sharedexpert）+256路由专家（routedexperts）每个token激活8个路由专家＞3＜DeepSeek模型架构DeepSeek架构：MLA(multi-headlatentattention)+MoE(mixtureofexperts)＞4＜DeepSeekMoE架构DeepSeekMoE架构共享专家+路由专家MoE架构＞5＜并行训练框架IB50GB/s并...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

港仔研报的最新文档