大模型推理框架升级之路肖彬DataFunSummit#2024我们将从四个优化专项介绍如何优化大模型推理框架性能量化投机采样TTFT与TPOT的优化通信优化01量化作为大模型最重要的性能优化手段,能有效降低显存占用,降低访存量,充分利用计算资源以下是大模型计算流程:量化Weight-int8+KV_cache_int8最早上线的一个版本,显著降低显存占用,使得模型使用较少卡启动,增大服务承载能力,降低成本50%weight跟kvcache在推理框架占用显存为大头,优先优化能有效降低成本Activationint8A8是在w8/kv8基础上对gemm相关计算的输入激活进行量化,能有效降低gemm运算耗时,首token耗时下降50%,成本下降15%Weight-int4+kv_cache-int4Int4主要目标是将显存占用压至更低,能在低端卡型上部署并支持更长的序列,支持更大的batch,成本下降3...
发表评论取消回复