天美乌鸦糖心mv

旧物回收类网站模板
最新公告: 诚信为本,市场在变,诚信永远不变...
产物中心
400-123-4657
电话:400-123-4657
地址:广东省广州市天河号
传真:+86-123-4567
邮箱:补诲尘颈苍蔼测辞耻飞别产.肠辞尘
新闻动态

当前位置: 天美乌鸦糖心mv > 新闻动态

vllm 为什么没在 prefill 阶段支持 cuda graph?

文章来源: 更新时间:2025-03-24 23:00:07

因为cuda graph要求静态shape, prefill做不到,因为prompt的长度不确定!但是decode阶段的长度固定为1,只是batch size不确定。

因此,vllm为decode捕获了多个batch size版本的graph,实例运行时可以padding到最近的batch size版本,实现推理。

vllm 为什么没在 prefill 阶段支持 cuda graph?
【返回列表】

上一篇 : 被同事算计是什么感觉?

下一篇 : 中国教育究竟是培养人才还是选拔人才?

网站天美乌鸦糖心mv 对于我们 产物中心 废旧知识 回收范围 服务项目 新闻动态 在线留言 联系我们

地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567

版权所有:

分享到: