InvokeAI/invokeai/backend/stable_diffusion/diffusion/conditioning_data.py

import dataclasses
import inspect
from dataclasses import dataclass, field
from typing import Any, List, Optional, Union

import torch

from .cross_attention_control import Arguments


@dataclass
class ExtraConditioningInfo:
    tokens_count_including_eos_bos: int
    cross_attention_control_args: Optional[Arguments] = None

    @property
    def wants_cross_attention_control(self):
        return self.cross_attention_control_args is not None


@dataclass
class BasicConditioningInfo:
    embeds: torch.Tensor
    # TODO(ryand): Right now we awkwardly copy the extra conditioning info from here up to `ConditioningData`. This
    # should only be stored in one place.
    extra_conditioning: Optional[ExtraConditioningInfo]
    # weight: float
    # mode: ConditioningAlgo

    def to(self, device, dtype=None):
        self.embeds = self.embeds.to(device=device, dtype=dtype)
        return self


@dataclass
class ConditioningFieldData:
    conditionings: List[BasicConditioningInfo]


@dataclass
class SDXLConditioningInfo(BasicConditioningInfo):
    pooled_embeds: torch.Tensor
    add_time_ids: torch.Tensor

    def to(self, device, dtype=None):
        self.pooled_embeds = self.pooled_embeds.to(device=device, dtype=dtype)
        self.add_time_ids = self.add_time_ids.to(device=device, dtype=dtype)
        return super().to(device=device, dtype=dtype)


@dataclass(frozen=True)
class PostprocessingSettings:
    threshold: float
    warmup: float
    h_symmetry_time_pct: Optional[float]
    v_symmetry_time_pct: Optional[float]


@dataclass
class IPAdapterConditioningInfo:
    cond_image_prompt_embeds: torch.Tensor
    """IP-Adapter image encoder conditioning embeddings.
    Shape: (num_images, num_tokens, encoding_dim).
    """
    uncond_image_prompt_embeds: torch.Tensor
    """IP-Adapter image encoding embeddings to use for unconditional generation.
    Shape: (num_images, num_tokens, encoding_dim).
    """


@dataclass
class ConditioningData:
    unconditioned_embeddings: BasicConditioningInfo
    text_embeddings: BasicConditioningInfo
    """
    Guidance scale as defined in [Classifier-Free Diffusion Guidance](https://arxiv.org/abs/2207.12598).
    `guidance_scale` is defined as `w` of equation 2. of [Imagen Paper](https://arxiv.org/pdf/2205.11487.pdf).
    Guidance scale is enabled by setting `guidance_scale > 1`. Higher guidance scale encourages to generate
    images that are closely linked to the text `prompt`, usually at the expense of lower image quality.
    """
    guidance_scale: Union[float, List[float]]
    """ for models trained using zero-terminal SNR ("ztsnr"), it's suggested to use guidance_rescale_multiplier of 0.7 .
     ref [Common Diffusion Noise Schedules and Sample Steps are Flawed](https://arxiv.org/pdf/2305.08891.pdf)
    """
    guidance_rescale_multiplier: float = 0
    extra: Optional[ExtraConditioningInfo] = None
    scheduler_args: dict[str, Any] = field(default_factory=dict)
    """
    Additional arguments to pass to invokeai_diffuser.do_latent_postprocessing().
    """
    postprocessing_settings: Optional[PostprocessingSettings] = None

    ip_adapter_conditioning: Optional[list[IPAdapterConditioningInfo]] = None

    @property
    def dtype(self):
        return self.text_embeddings.dtype

    def add_scheduler_args_if_applicable(self, scheduler, **kwargs):
        scheduler_args = dict(self.scheduler_args)
        step_method = inspect.signature(scheduler.step)
        for name, value in kwargs.items():
            try:
                step_method.bind_partial(**{name: value})
            except TypeError:
                # FIXME: don't silently discard arguments
                pass  # debug("%s does not accept argument named %r", scheduler, name)
            else:
                scheduler_args[name] = value
        return dataclasses.replace(self, scheduler_args=scheduler_args)
Move ConditioningData and its field classes to their own file. This will allow new conditioning types to be added more cleanly without introducing circular dependencies. 2023-09-08 15:00:11 +00:00			`import dataclasses`
			`import inspect`
			`from dataclasses import dataclass, field`
			`from typing import Any, List, Optional, Union`

			`import torch`

			`from .cross_attention_control import Arguments`


			`@dataclass`
			`class ExtraConditioningInfo:`
			`tokens_count_including_eos_bos: int`
			`cross_attention_control_args: Optional[Arguments] = None`

			`@property`
			`def wants_cross_attention_control(self):`
			`return self.cross_attention_control_args is not None`


			`@dataclass`
			`class BasicConditioningInfo:`
			`embeds: torch.Tensor`
			# TODO(ryand): Right now we awkwardly copy the extra conditioning info from here up to `ConditioningData`. This
			`# should only be stored in one place.`
			`extra_conditioning: Optional[ExtraConditioningInfo]`
			`# weight: float`
			`# mode: ConditioningAlgo`

			`def to(self, device, dtype=None):`
			`self.embeds = self.embeds.to(device=device, dtype=dtype)`
			`return self`


feat(nodes): move `ConditioningFieldData` to `conditioning_data.py` 2024-01-14 23:41:25 +00:00			`@dataclass`
			`class ConditioningFieldData:`
			`conditionings: List[BasicConditioningInfo]`


Move ConditioningData and its field classes to their own file. This will allow new conditioning types to be added more cleanly without introducing circular dependencies. 2023-09-08 15:00:11 +00:00			`@dataclass`
			`class SDXLConditioningInfo(BasicConditioningInfo):`
			`pooled_embeds: torch.Tensor`
			`add_time_ids: torch.Tensor`

			`def to(self, device, dtype=None):`
			`self.pooled_embeds = self.pooled_embeds.to(device=device, dtype=dtype)`
			`self.add_time_ids = self.add_time_ids.to(device=device, dtype=dtype)`
			`return super().to(device=device, dtype=dtype)`


			`@dataclass(frozen=True)`
			`class PostprocessingSettings:`
			`threshold: float`
			`warmup: float`
			`h_symmetry_time_pct: Optional[float]`
			`v_symmetry_time_pct: Optional[float]`


Pass IP-Adapter conditioning via cross_attention_kwargs instead of concatenating to the text embedding. This avoids interference with other features that manipulate the text embedding (e.g. long prompts). 2023-09-08 15:47:36 +00:00			`@dataclass`
			`class IPAdapterConditioningInfo:`
			`cond_image_prompt_embeds: torch.Tensor`
			`"""IP-Adapter image encoder conditioning embeddings.`
Add support for multi-image IP-Adapter. 2023-10-13 18:44:42 +00:00			`Shape: (num_images, num_tokens, encoding_dim).`
Pass IP-Adapter conditioning via cross_attention_kwargs instead of concatenating to the text embedding. This avoids interference with other features that manipulate the text embedding (e.g. long prompts). 2023-09-08 15:47:36 +00:00			`"""`
			`uncond_image_prompt_embeds: torch.Tensor`
			`"""IP-Adapter image encoding embeddings to use for unconditional generation.`
Add support for multi-image IP-Adapter. 2023-10-13 18:44:42 +00:00			`Shape: (num_images, num_tokens, encoding_dim).`
Pass IP-Adapter conditioning via cross_attention_kwargs instead of concatenating to the text embedding. This avoids interference with other features that manipulate the text embedding (e.g. long prompts). 2023-09-08 15:47:36 +00:00			`"""`


Move ConditioningData and its field classes to their own file. This will allow new conditioning types to be added more cleanly without introducing circular dependencies. 2023-09-08 15:00:11 +00:00			`@dataclass`
			`class ConditioningData:`
			`unconditioned_embeddings: BasicConditioningInfo`
			`text_embeddings: BasicConditioningInfo`
			`"""`
			`Guidance scale as defined in [Classifier-Free Diffusion Guidance](https://arxiv.org/abs/2207.12598).`
			`guidance_scale` is defined as `w` of equation 2. of [Imagen Paper](https://arxiv.org/pdf/2205.11487.pdf).
			Guidance scale is enabled by setting `guidance_scale > 1`. Higher guidance scale encourages to generate
			images that are closely linked to the text `prompt`, usually at the expense of lower image quality.
			`"""`
Add CFG Rescale option for supporting zero-terminal SNR models (#4335) * add support for CFG rescale * fix typo * move rescale position and tweak docs * move input position * implement suggestions from github and discord * cleanup unused code * add back dropped FieldDescription * fix(ui): revert unrelated UI changes * chore(nodes): bump denoise_latents version 1.4.0 -> 1.5.0 * feat(nodes): add cfg_rescale_multiplier to metadata node * feat(ui): add cfg rescale multiplier to linear UI - add param to state - update graph builders - add UI under advanced - add metadata handling & recall - regen types * chore: black * fix(backend): make `StableDiffusionGeneratorPipeline._rescale_cfg()` staticmethod This doesn't need access to class. * feat(backend): add docstring for `_rescale_cfg()` method * feat(ui): update cfg rescale mult translation string --------- Co-authored-by: psychedelicious <4822129+psychedelicious@users.noreply.github.com> 2023-11-30 09:55:20 +00:00			`guidance_scale: Union[float, List[float]]`
			`""" for models trained using zero-terminal SNR ("ztsnr"), it's suggested to use guidance_rescale_multiplier of 0.7 .`
			`ref [Common Diffusion Noise Schedules and Sample Steps are Flawed](https://arxiv.org/pdf/2305.08891.pdf)`
			`"""`
			`guidance_rescale_multiplier: float = 0`
Move ConditioningData and its field classes to their own file. This will allow new conditioning types to be added more cleanly without introducing circular dependencies. 2023-09-08 15:00:11 +00:00			`extra: Optional[ExtraConditioningInfo] = None`
			`scheduler_args: dict[str, Any] = field(default_factory=dict)`
			`"""`
			`Additional arguments to pass to invokeai_diffuser.do_latent_postprocessing().`
			`"""`
			`postprocessing_settings: Optional[PostprocessingSettings] = None`

WIP - Accept a list of IPAdapterFields in DenoiseLatents. 2023-09-21 21:46:05 +00:00			`ip_adapter_conditioning: Optional[list[IPAdapterConditioningInfo]] = None`
Pass IP-Adapter conditioning via cross_attention_kwargs instead of concatenating to the text embedding. This avoids interference with other features that manipulate the text embedding (e.g. long prompts). 2023-09-08 15:47:36 +00:00
Move ConditioningData and its field classes to their own file. This will allow new conditioning types to be added more cleanly without introducing circular dependencies. 2023-09-08 15:00:11 +00:00			`@property`
			`def dtype(self):`
			`return self.text_embeddings.dtype`

			`def add_scheduler_args_if_applicable(self, scheduler, **kwargs):`
			`scheduler_args = dict(self.scheduler_args)`
			`step_method = inspect.signature(scheduler.step)`
			`for name, value in kwargs.items():`
			`try:`
			`step_method.bind_partial(**{name: value})`
			`except TypeError:`
			`# FIXME: don't silently discard arguments`
			`pass # debug("%s does not accept argument named %r", scheduler, name)`
			`else:`
			`scheduler_args[name] = value`
			`return dataclasses.replace(self, scheduler_args=scheduler_args)`