当前位置: 天美乌鸦糖心mv > 新闻动态
文章来源: 更新时间:2025-03-24 23:00:07
因为cuda graph要求静态shape, prefill做不到,因为prompt的长度不确定!但是decode阶段的长度固定为1,只是batch size不确定。
因此,vllm为decode捕获了多个batch size版本的graph,实例运行时可以padding到最近的batch size版本,实现推理。
。
上一篇 : 被同事算计是什么感觉?
下一篇 : 中国教育究竟是培养人才还是选拔人才?
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: