ModelCloud · Qubitium · Dec 3, 2024 · Dec 3, 2024 · Dec 3, 2024 · Dec 3, 2024
diff --git a/gptqmodel/utils/importer.py b/gptqmodel/utils/importer.py
@@ -1,6 +1,6 @@
 from collections import OrderedDict
-
 import torch
+from typing import Optional, Union
 
 from .backend import BACKEND
 from ..nn_modules.qlinear.qlinear_bitblas import BitBLASQuantLinear
@@ -40,11 +40,18 @@ def hf_select_quant_linear(
         group_size: int,
         desc_act: bool,
         sym: bool,
+        device_map: Optional[Union[str, dict]] = None,
         backend: BACKEND = BACKEND.AUTO,
         format: FORMAT = FORMAT.GPTQ,
         pack: bool = False,
         dynamic=None,
 ):
+    # force backend to ipex if cpu/xpu is designated device
+    if device_map is not None:
+        devices = [device_map] if isinstance(device_map, str) else list(device_map.values())
+        if any(dev in devices or torch.device(dev) in devices for dev in ["cpu", "xpu"]):
+            backend = BACKEND.IPEX
+
     return select_quant_linear(
         bits=bits,
         group_size=group_size,

diff --git a/gptqmodel/utils/model.py b/gptqmodel/utils/model.py
@@ -206,7 +206,7 @@ def convert_gptq_v1_to_v2_format(
     qlinear_kernel: nn.Module,
 ):
     # skip v1 to v2 conversion for ipex
-    if isinstance(qlinear_kernel, IPEXQuantLinear):
+    if qlinear_kernel == IPEXQuantLinear:
         return model
 
     # Limit thread usage to avoid auto-parallizataion regression
@@ -255,7 +255,7 @@ def convert_gptq_v2_to_v1_format(
     qlinear_kernel: nn.Module,
 ):
     # skip v2 to v1 conversion for ipex
-    if isinstance(qlinear_kernel, IPEXQuantLinear):
+    if qlinear_kernel == IPEXQuantLinear:
         return model
 
     # Limit thread usage to avoid auto-parallizataion regression