vllm.v1.core.sched.output ¶

CachedRequestData `dataclass` ¶

Source code in vllm/v1/core/sched/output.py

@bc_linter_include
@dataclass
class CachedRequestData:
    req_ids: list[str]
    # For request ids not in resumed_req_ids, new_block_ids will be appended to
    # the request's block IDs. For those in the set, new_block_ids will be used as the
    # request's block IDs instead of appending to the existing block IDs.
    resumed_req_ids: set[str]
    # NOTE(woosuk): new_token_ids is only used for pipeline parallelism.
    # When PP is not used, new_token_ids will be empty.
    new_token_ids: list[list[int]]
    # For requests not scheduled in the last step, propagate the token ids to the
    # connector. Won't contain requests that were scheduled in the prior step.
    all_token_ids: dict[str, list[int]]
    new_block_ids: list[tuple[list[int], ...] | None]
    num_computed_tokens: list[int]
    num_output_tokens: list[int]

    # Version of dataclass repr with token IDs obfuscated.
    def anon_repr(self) -> str:
        new_token_ids_lens = [len(toks) for toks in self.new_token_ids]
        all_token_ids_lens = {
            req_id: len(toks) for req_id, toks in self.all_token_ids.items()
        }
        return (
            f"CachedRequestData("
            f"req_ids={self.req_ids},"
            f"resumed_req_ids={self.resumed_req_ids},"
            f"new_token_ids_lens={new_token_ids_lens},"
            f"all_token_ids_lens={all_token_ids_lens},"
            f"new_block_ids={self.new_block_ids},"
            f"num_computed_tokens={self.num_computed_tokens},"
            f"num_output_tokens={self.num_output_tokens}"
            f")"
        )

    def __repr__(self) -> str:
        return self.anon_repr()

    @property
    def num_reqs(self) -> int:
        return len(self.req_ids)

    @cached_property
    def _req_id_to_num_output_tokens(self) -> dict[str, int]:
        """Cache mapping of req_id to num_output_tokens for O(1) lookup.

        This cached property is safe because CachedRequestData instances
        are created fresh each scheduling iteration and not mutated during
        computation of iteration details.
        """
        return dict(zip(self.req_ids, self.num_output_tokens))

    def is_context_phase(self, req_id: str) -> bool:
        num_output_tokens = self._req_id_to_num_output_tokens.get(req_id)
        return num_output_tokens is not None and num_output_tokens == 0

    @classmethod
    def make_empty(cls) -> "CachedRequestData":
        return cls(
            req_ids=[],
            resumed_req_ids=set(),
            new_token_ids=[],
            all_token_ids={},
            new_block_ids=[],
            num_computed_tokens=[],
            num_output_tokens=[],
        )

_req_id_to_num_output_tokens `cached` `property` ¶

_req_id_to_num_output_tokens: dict[str, int]

Cache mapping of req_id to num_output_tokens for O(1) lookup.

This cached property is safe because CachedRequestData instances are created fresh each scheduling iteration and not mutated during computation of iteration details.

all_token_ids `instance-attribute` ¶

all_token_ids: dict[str, list[int]]

new_block_ids `instance-attribute` ¶

new_block_ids: list[tuple[list[int], ...] | None]

new_token_ids `instance-attribute` ¶

new_token_ids: list[list[int]]

num_computed_tokens `instance-attribute` ¶

num_computed_tokens: list[int]

num_output_tokens `instance-attribute` ¶

num_output_tokens: list[int]

num_reqs `property` ¶

num_reqs: int

req_ids `instance-attribute` ¶

req_ids: list[str]

resumed_req_ids `instance-attribute` ¶

resumed_req_ids: set[str]

init ¶

__init__(
    req_ids: list[str],
    resumed_req_ids: set[str],
    new_token_ids: list[list[int]],
    all_token_ids: dict[str, list[int]],
    new_block_ids: list[tuple[list[int], ...] | None],
    num_computed_tokens: list[int],
    num_output_tokens: list[int],
) -> None

repr ¶

__repr__() -> str

Source code in vllm/v1/core/sched/output.py

def __repr__(self) -> str:
    return self.anon_repr()

anon_repr ¶

anon_repr() -> str

Source code in vllm/v1/core/sched/output.py

def anon_repr(self) -> str:
    new_token_ids_lens = [len(toks) for toks in self.new_token_ids]
    all_token_ids_lens = {
        req_id: len(toks) for req_id, toks in self.all_token_ids.items()
    }
    return (
        f"CachedRequestData("
        f"req_ids={self.req_ids},"
        f"resumed_req_ids={self.resumed_req_ids},"
        f"new_token_ids_lens={new_token_ids_lens},"
        f"all_token_ids_lens={all_token_ids_lens},"
        f"new_block_ids={self.new_block_ids},"
        f"num_computed_tokens={self.num_computed_tokens},"
        f"num_output_tokens={self.num_output_tokens}"
        f")"
    )

is_context_phase ¶

is_context_phase(req_id: str) -> bool

Source code in vllm/v1/core/sched/output.py

def is_context_phase(self, req_id: str) -> bool:
    num_output_tokens = self._req_id_to_num_output_tokens.get(req_id)
    return num_output_tokens is not None and num_output_tokens == 0

make_empty `classmethod` ¶

make_empty() -> CachedRequestData

Source code in vllm/v1/core/sched/output.py

@classmethod
def make_empty(cls) -> "CachedRequestData":
    return cls(
        req_ids=[],
        resumed_req_ids=set(),
        new_token_ids=[],
        all_token_ids={},
        new_block_ids=[],
        num_computed_tokens=[],
        num_output_tokens=[],
    )

GrammarOutput `dataclass` ¶

Source code in vllm/v1/core/sched/output.py

@dataclass
class GrammarOutput:
    # ids of structured output requests.
    structured_output_request_ids: list[str]
    # Bitmask ordered as structured_output_request_ids.
    grammar_bitmask: "npt.NDArray[np.int32]"

grammar_bitmask `instance-attribute` ¶

grammar_bitmask: NDArray[int32]

structured_output_request_ids `instance-attribute` ¶

structured_output_request_ids: list[str]

init ¶

__init__(
    structured_output_request_ids: list[str],
    grammar_bitmask: NDArray[int32],
) -> None

NewRequestData `dataclass` ¶

Source code in vllm/v1/core/sched/output.py

@bc_linter_include
@dataclass
class NewRequestData:
    req_id: str
    prompt_token_ids: list[int] | None
    mm_features: list[MultiModalFeatureSpec]
    sampling_params: SamplingParams | None
    pooling_params: PoolingParams | None
    block_ids: tuple[list[int], ...]
    num_computed_tokens: int
    lora_request: LoRARequest | None
    prompt_embeds: "torch.Tensor | None" = None

    # Only used for v2 model runner.
    prefill_token_ids: list[int] | None = None

    @classmethod
    def from_request(
        cls,
        request: Request,
        block_ids: tuple[list[int], ...],
        prefill_token_ids: list[int] | None = None,
    ) -> "NewRequestData":
        return cls(
            req_id=request.request_id,
            prompt_token_ids=request.prompt_token_ids,
            mm_features=request.mm_features,
            sampling_params=request.sampling_params,
            pooling_params=request.pooling_params,
            block_ids=block_ids,
            num_computed_tokens=request.num_computed_tokens,
            lora_request=request.lora_request,
            prompt_embeds=request.prompt_embeds,
            prefill_token_ids=prefill_token_ids,
        )

    def __repr__(self) -> str:
        prompt_embeds_shape = (
            self.prompt_embeds.shape if self.prompt_embeds is not None else None
        )
        return (
            f"NewRequestData("
            f"req_id={self.req_id},"
            f"prompt_token_ids={self.prompt_token_ids},"
            f"prefill_token_ids={self.prefill_token_ids},"
            f"mm_features={self.mm_features},"
            f"sampling_params={self.sampling_params},"
            f"block_ids={self.block_ids},"
            f"num_computed_tokens={self.num_computed_tokens},"
            f"lora_request={self.lora_request},"
            f"prompt_embeds_shape={prompt_embeds_shape}"
            ")"
        )

    # Version of __repr__ with the prompt data obfuscated
    def anon_repr(self) -> str:
        prompt_token_ids_len = (
            len(self.prompt_token_ids) if self.prompt_token_ids is not None else None
        )
        prompt_embeds_shape = (
            self.prompt_embeds.shape if self.prompt_embeds is not None else None
        )
        prefill_token_ids_len = (
            len(self.prefill_token_ids) if self.prefill_token_ids is not None else None
        )
        return (
            f"NewRequestData("
            f"req_id={self.req_id},"
            f"prompt_token_ids_len={prompt_token_ids_len},"
            f"prefill_token_ids_len={prefill_token_ids_len},"
            f"mm_features={self.mm_features},"
            f"sampling_params={self.sampling_params},"
            f"block_ids={self.block_ids},"
            f"num_computed_tokens={self.num_computed_tokens},"
            f"lora_request={self.lora_request},"
            f"prompt_embeds_shape={prompt_embeds_shape}"
            ")"
        )

block_ids `instance-attribute` ¶

block_ids: tuple[list[int], ...]

lora_request `instance-attribute` ¶

lora_request: LoRARequest | None

mm_features `instance-attribute` ¶

mm_features: list[MultiModalFeatureSpec]

num_computed_tokens `instance-attribute` ¶

num_computed_tokens: int

pooling_params `instance-attribute` ¶

pooling_params: PoolingParams | None

prefill_token_ids `class-attribute` `instance-attribute` ¶

prefill_token_ids: list[int] | None = None

prompt_embeds `class-attribute` `instance-attribute` ¶

prompt_embeds: Tensor | None = None

prompt_token_ids `instance-attribute` ¶

prompt_token_ids: list[int] | None

req_id `instance-attribute` ¶

req_id: str

sampling_params `instance-attribute` ¶

sampling_params: SamplingParams | None

init ¶

__init__(
    req_id: str,
    prompt_token_ids: list[int] | None,
    mm_features: list[MultiModalFeatureSpec],
    sampling_params: SamplingParams | None,
    pooling_params: PoolingParams | None,
    block_ids: tuple[list[int], ...],
    num_computed_tokens: int,
    lora_request: LoRARequest | None,
    prompt_embeds: Tensor | None = None,
    prefill_token_ids: list[int] | None = None,
) -> None

repr ¶

__repr__() -> str

Source code in vllm/v1/core/sched/output.py

def __repr__(self) -> str:
    prompt_embeds_shape = (
        self.prompt_embeds.shape if self.prompt_embeds is not None else None
    )
    return (
        f"NewRequestData("
        f"req_id={self.req_id},"
        f"prompt_token_ids={self.prompt_token_ids},"
        f"prefill_token_ids={self.prefill_token_ids},"
        f"mm_features={self.mm_features},"
        f"sampling_params={self.sampling_params},"
        f"block_ids={self.block_ids},"
        f"num_computed_tokens={self.num_computed_tokens},"
        f"lora_request={self.lora_request},"
        f"prompt_embeds_shape={prompt_embeds_shape}"
        ")"
    )

anon_repr ¶

anon_repr() -> str

Source code in vllm/v1/core/sched/output.py

def anon_repr(self) -> str:
    prompt_token_ids_len = (
        len(self.prompt_token_ids) if self.prompt_token_ids is not None else None
    )
    prompt_embeds_shape = (
        self.prompt_embeds.shape if self.prompt_embeds is not None else None
    )
    prefill_token_ids_len = (
        len(self.prefill_token_ids) if self.prefill_token_ids is not None else None
    )
    return (
        f"NewRequestData("
        f"req_id={self.req_id},"
        f"prompt_token_ids_len={prompt_token_ids_len},"
        f"prefill_token_ids_len={prefill_token_ids_len},"
        f"mm_features={self.mm_features},"
        f"sampling_params={self.sampling_params},"
        f"block_ids={self.block_ids},"
        f"num_computed_tokens={self.num_computed_tokens},"
        f"lora_request={self.lora_request},"
        f"prompt_embeds_shape={prompt_embeds_shape}"
        ")"
    )

from_request `classmethod` ¶

from_request(
    request: Request,
    block_ids: tuple[list[int], ...],
    prefill_token_ids: list[int] | None = None,
) -> NewRequestData

Source code in vllm/v1/core/sched/output.py

@classmethod
def from_request(
    cls,
    request: Request,
    block_ids: tuple[list[int], ...],
    prefill_token_ids: list[int] | None = None,
) -> "NewRequestData":
    return cls(
        req_id=request.request_id,
        prompt_token_ids=request.prompt_token_ids,
        mm_features=request.mm_features,
        sampling_params=request.sampling_params,
        pooling_params=request.pooling_params,
        block_ids=block_ids,
        num_computed_tokens=request.num_computed_tokens,
        lora_request=request.lora_request,
        prompt_embeds=request.prompt_embeds,
        prefill_token_ids=prefill_token_ids,
    )

SchedulerOutput `dataclass` ¶

Source code in vllm/v1/core/sched/output.py

@bc_linter_include
@dataclass
class SchedulerOutput:
    # list of the requests that are scheduled for the first time.
    # We cache the request's data in each worker process, so that we don't
    # need to re-send it every scheduling step.
    scheduled_new_reqs: list[NewRequestData]
    # list of the requests that have been scheduled before.
    # Since the request's data is already cached in the worker processes,
    # we only send the diff to minimize the communication cost.
    scheduled_cached_reqs: CachedRequestData

    # req_id -> num_scheduled_tokens
    # Number of tokens scheduled for each request.
    num_scheduled_tokens: dict[str, int]
    # Total number of tokens scheduled for all requests.
    # Equal to sum(num_scheduled_tokens.values())
    total_num_scheduled_tokens: int
    # req_id -> spec_token_ids
    # If a request does not have any spec decode tokens, it will not be
    # included in the dictionary.
    scheduled_spec_decode_tokens: dict[str, list[int]]
    # req_id -> encoder input indices that need processing.
    # E.g., if a request has [0, 1], it could mean the vision encoder needs
    # to process that the request's 0-th and 1-th images in the current step.
    scheduled_encoder_inputs: dict[str, list[int]]
    # Number of common prefix blocks for all requests in each KV cache group.
    # This can be used for cascade attention.
    num_common_prefix_blocks: list[int]

    # Request IDs that are finished in between the previous and the current
    # steps. This is used to notify the workers about the finished requests
    # so that they can free the cached states for those requests.
    finished_req_ids: set[str]
    # list of mm_hash strings associated with the encoder outputs to be
    # freed from the encoder cache.
    free_encoder_mm_hashes: list[str]

    # Request IDs that are preempted in this step.
    # Only used for v2 model runner.
    preempted_req_ids: set[str] | None = None

    # Whether any of the scheduled requests use structured output.
    # Set only in async scheduling case.
    has_structured_output_requests: bool = False

    # Whether the scheduled requests have all the output tokens they
    # need to perform grammar bitmask computation.
    pending_structured_output_tokens: bool = False

    # Used for adjusting acceptance rate calculation.
    num_invalid_spec_tokens: dict[str, int] | None = None

    # KV Cache Connector metadata.
    kv_connector_metadata: KVConnectorMetadata | None = None

    # EC Cache Connector metadata
    ec_connector_metadata: ECConnectorMetadata | None = None

    # Monotonically increasing scheduler iteration counter.
    # Increments once per invocation of Scheduler.schedule().
    # Starts at 1 for first schedule() call. May advance during idle periods
    # when the engine ticks the scheduler. Not the same as decode step - this
    # tracks scheduler invocations, not token generation steps.
    scheduler_step: int = 0

    @classmethod
    def make_empty(cls) -> "SchedulerOutput":
        return cls(
            scheduled_new_reqs=[],
            scheduled_cached_reqs=CachedRequestData.make_empty(),
            num_scheduled_tokens={},
            total_num_scheduled_tokens=0,
            scheduled_spec_decode_tokens={},
            scheduled_encoder_inputs={},
            num_common_prefix_blocks=[],
            finished_req_ids=set(),
            free_encoder_mm_hashes=[],
        )

ec_connector_metadata `class-attribute` `instance-attribute` ¶

ec_connector_metadata: ECConnectorMetadata | None = None

finished_req_ids `instance-attribute` ¶

finished_req_ids: set[str]

free_encoder_mm_hashes `instance-attribute` ¶

free_encoder_mm_hashes: list[str]

has_structured_output_requests `class-attribute` `instance-attribute` ¶

has_structured_output_requests: bool = False

kv_connector_metadata `class-attribute` `instance-attribute` ¶

kv_connector_metadata: KVConnectorMetadata | None = None

num_common_prefix_blocks `instance-attribute` ¶

num_common_prefix_blocks: list[int]

num_invalid_spec_tokens `class-attribute` `instance-attribute` ¶

num_invalid_spec_tokens: dict[str, int] | None = None

num_scheduled_tokens `instance-attribute` ¶

num_scheduled_tokens: dict[str, int]

pending_structured_output_tokens `class-attribute` `instance-attribute` ¶

pending_structured_output_tokens: bool = False

preempted_req_ids `class-attribute` `instance-attribute` ¶

preempted_req_ids: set[str] | None = None

scheduled_cached_reqs `instance-attribute` ¶

scheduled_cached_reqs: CachedRequestData

scheduled_encoder_inputs `instance-attribute` ¶

scheduled_encoder_inputs: dict[str, list[int]]

scheduled_new_reqs `instance-attribute` ¶

scheduled_new_reqs: list[NewRequestData]

scheduled_spec_decode_tokens `instance-attribute` ¶

scheduled_spec_decode_tokens: dict[str, list[int]]

scheduler_step `class-attribute` `instance-attribute` ¶

scheduler_step: int = 0

total_num_scheduled_tokens `instance-attribute` ¶

total_num_scheduled_tokens: int

init ¶

__init__(
    scheduled_new_reqs: list[NewRequestData],
    scheduled_cached_reqs: CachedRequestData,
    num_scheduled_tokens: dict[str, int],
    total_num_scheduled_tokens: int,
    scheduled_spec_decode_tokens: dict[str, list[int]],
    scheduled_encoder_inputs: dict[str, list[int]],
    num_common_prefix_blocks: list[int],
    finished_req_ids: set[str],
    free_encoder_mm_hashes: list[str],
    preempted_req_ids: set[str] | None = None,
    has_structured_output_requests: bool = False,
    pending_structured_output_tokens: bool = False,
    num_invalid_spec_tokens: dict[str, int] | None = None,
    kv_connector_metadata: KVConnectorMetadata
    | None = None,
    ec_connector_metadata: ECConnectorMetadata
    | None = None,
    scheduler_step: int = 0,
) -> None

make_empty `classmethod` ¶

make_empty() -> SchedulerOutput

Source code in vllm/v1/core/sched/output.py

@classmethod
def make_empty(cls) -> "SchedulerOutput":
    return cls(
        scheduled_new_reqs=[],
        scheduled_cached_reqs=CachedRequestData.make_empty(),
        num_scheduled_tokens={},
        total_num_scheduled_tokens=0,
        scheduled_spec_decode_tokens={},
        scheduled_encoder_inputs={},
        num_common_prefix_blocks=[],
        finished_req_ids=set(),
        free_encoder_mm_hashes=[],
    )

vllm.v1.core.sched.output ¶

CachedRequestData dataclass ¶

_req_id_to_num_output_tokens cached property ¶

all_token_ids instance-attribute ¶

new_block_ids instance-attribute ¶

new_token_ids instance-attribute ¶

num_computed_tokens instance-attribute ¶

num_output_tokens instance-attribute ¶

num_reqs property ¶

req_ids instance-attribute ¶

resumed_req_ids instance-attribute ¶

__init__ ¶

__repr__ ¶

anon_repr ¶

is_context_phase ¶

make_empty classmethod ¶

GrammarOutput dataclass ¶

grammar_bitmask instance-attribute ¶

structured_output_request_ids instance-attribute ¶

__init__ ¶

NewRequestData dataclass ¶

block_ids instance-attribute ¶

lora_request instance-attribute ¶

mm_features instance-attribute ¶

num_computed_tokens instance-attribute ¶

pooling_params instance-attribute ¶

prefill_token_ids class-attribute instance-attribute ¶

prompt_embeds class-attribute instance-attribute ¶

prompt_token_ids instance-attribute ¶

req_id instance-attribute ¶

sampling_params instance-attribute ¶

__init__ ¶

__repr__ ¶

anon_repr ¶

from_request classmethod ¶

SchedulerOutput dataclass ¶

ec_connector_metadata class-attribute instance-attribute ¶

finished_req_ids instance-attribute ¶

free_encoder_mm_hashes instance-attribute ¶

has_structured_output_requests class-attribute instance-attribute ¶

kv_connector_metadata class-attribute instance-attribute ¶

num_common_prefix_blocks instance-attribute ¶

num_invalid_spec_tokens class-attribute instance-attribute ¶

num_scheduled_tokens instance-attribute ¶

pending_structured_output_tokens class-attribute instance-attribute ¶

preempted_req_ids class-attribute instance-attribute ¶

scheduled_cached_reqs instance-attribute ¶

scheduled_encoder_inputs instance-attribute ¶

scheduled_new_reqs instance-attribute ¶

scheduled_spec_decode_tokens instance-attribute ¶

scheduler_step class-attribute instance-attribute ¶

total_num_scheduled_tokens instance-attribute ¶

__init__ ¶

make_empty classmethod ¶

CachedRequestData `dataclass` ¶

_req_id_to_num_output_tokens `cached` `property` ¶

all_token_ids `instance-attribute` ¶

new_block_ids `instance-attribute` ¶

new_token_ids `instance-attribute` ¶

num_computed_tokens `instance-attribute` ¶

num_output_tokens `instance-attribute` ¶

num_reqs `property` ¶

req_ids `instance-attribute` ¶

resumed_req_ids `instance-attribute` ¶

init ¶

repr ¶

make_empty `classmethod` ¶

GrammarOutput `dataclass` ¶

grammar_bitmask `instance-attribute` ¶

structured_output_request_ids `instance-attribute` ¶

init ¶

NewRequestData `dataclass` ¶

block_ids `instance-attribute` ¶

lora_request `instance-attribute` ¶

mm_features `instance-attribute` ¶

num_computed_tokens `instance-attribute` ¶

pooling_params `instance-attribute` ¶

prefill_token_ids `class-attribute` `instance-attribute` ¶

prompt_embeds `class-attribute` `instance-attribute` ¶

prompt_token_ids `instance-attribute` ¶

req_id `instance-attribute` ¶

sampling_params `instance-attribute` ¶

init ¶

repr ¶

from_request `classmethod` ¶

SchedulerOutput `dataclass` ¶

ec_connector_metadata `class-attribute` `instance-attribute` ¶

finished_req_ids `instance-attribute` ¶

free_encoder_mm_hashes `instance-attribute` ¶

has_structured_output_requests `class-attribute` `instance-attribute` ¶

kv_connector_metadata `class-attribute` `instance-attribute` ¶

num_common_prefix_blocks `instance-attribute` ¶

num_invalid_spec_tokens `class-attribute` `instance-attribute` ¶

num_scheduled_tokens `instance-attribute` ¶

pending_structured_output_tokens `class-attribute` `instance-attribute` ¶

preempted_req_ids `class-attribute` `instance-attribute` ¶

scheduled_cached_reqs `instance-attribute` ¶

scheduled_encoder_inputs `instance-attribute` ¶

scheduled_new_reqs `instance-attribute` ¶

scheduled_spec_decode_tokens `instance-attribute` ¶

scheduler_step `class-attribute` `instance-attribute` ¶

total_num_scheduled_tokens `instance-attribute` ¶

init ¶

make_empty `classmethod` ¶