【百川智能】大模型推理框架升级之路-

阅读 35 格式 pdf 大小 2.67 MB 共26页2025-04-22 20:12:09发布于浙江

立即下载加入VIP

海报

/26

立即下载加入VIP

文本预览下载提示常见问题

大模型推理框架升级之路肖彬DataFunSummit#2024我们将从四个优化专项介绍如何优化大模型推理框架性能量化投机采样TTFT与TPOT的优化通信优化01量化作为大模型最重要的性能优化手段，能有效降低显存占用，降低访存量，充分利用计算资源以下是大模型计算流程：量化Weight-int8+KV_cache_int8最早上线的一个版本，显著降低显存占用，使得模型使用较少卡启动，增大服务承载能力，降低成本50%weight跟kvcache在推理框架占用显存为大头，优先优化能有效降低成本Activationint8A8是在w8/kv8基础上对gemm相关计算的输入激活进行量化，能有效降低gemm运算耗时，首token耗时下降50%，成本下降15%Weight-int4+kv_cache-int4Int4主要目标是将显存占用压至更低，能在低端卡型上部署并支持更长的序列，支持更大的batch，成本下降3...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

嘿牛投研的最新文档