Make quantized loading fast.

2024-08-30 20:32:17 +00:00 · 2024-08-09 16:39:43 +00:00 · 2024-08-09 16:39:43 +00:00 · d23ad1818d
commit d23ad1818d
parent 4181ab654b
1 changed files with 8 additions and 9 deletions
--- a/invokeai/backend/requantize.py
+++ b/invokeai/backend/requantize.py
@ -1,14 +1,13 @@
 from typing import Any, Dict
 import torch
-from optimum.quanto.nn import QModuleMixin
+from optimum.quanto.quantize import _quantize_submodule
 from optimum.quanto.quantize import _quantize_submodule, freeze
-
+# def custom_freeze(model: torch.nn.Module):
-def custom_freeze(model: torch.nn.Module):
+#     for name, m in model.named_modules():
-    for name, m in model.named_modules():
+#         if isinstance(m, QModuleMixin):
-        if isinstance(m, QModuleMixin):
+#             m.weight =
-            m.freeze()
+#             m.freeze()
 def requantize(
@ -47,8 +46,8 @@ def requantize(
        for name, param in m.named_buffers(recurse=False):
            setattr(m, name, move_tensor(param, "cpu"))
    # Freeze model and move to target device
-    freeze(model)
+    # freeze(model)
-    model.to(device)
+    # model.to(device)
    # Load the quantized model weights
    model.load_state_dict(state_dict, strict=False)