vllm 为什么没在 prefill 阶段支持 cuda graph？_低温低湿干燥储存柜-大容量高速台式冷冻离心机-万得福纳特

产物中心

电话：400-123-4657
地址：广东省广州市天河号
传真：+86-123-4567
邮箱：补诲尘颈苍蔼测辞耻飞别产.肠辞尘

新闻动态

vllm 为什么没在 prefill 阶段支持 cuda graph？

文章来源：　更新时间：2025-03-24 23:00:07

因为cuda graph要求静态shape， prefill做不到，因为prompt的长度不确定！但是decode阶段的长度固定为1，只是batch size不确定。

因此，vllm为decode捕获了多个batch size版本的graph，实例运行时可以padding到最近的batch size版本，实现推理。

。

【返回列表】