
文章来源: 更新时间:2024-09-22 15:40:12
最近几个月 vLLM 有比较多的更新 ,我比较感兴趣的两个更新是 Multi-step Scheduling(多步调度)和 Chunked prefill(分段填充),这两个更新可以显著提升 vLLM server 的性能。
Multi-step Scheduling[RFC]: Multi-Step Scheduling · Issue #6854 · vllm-project/vllm ***s://github***/vllm-project/vllm/pull/7000 在 HelloWorld:vLLM(二)架构概览 介绍过,vLLM 将请求的处理分为填充阶段和生成(解码)阶段,每一次生成,都伴随着高 CPU 开销,因…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: