ModelCloud
diff --git a/‎examples/quantization/basic_usage.py
Lines changed: 4 additions & 0 deletions b/‎examples/quantization/basic_usage.py
Lines changed: 4 additions & 0 deletions
diff --git a/‎gptqmodel/models/auto.py
Lines changed: 0 additions & 2 deletions b/‎gptqmodel/models/auto.py
Lines changed: 0 additions & 2 deletions
@@ -1,6 +1,10 @@
+import os
+
 from gptqmodel import GPTQModel, QuantizeConfig
 from transformers import AutoTokenizer
 
+os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
+
 pretrained_model_id = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
 quantized_model_id = "TinyLlama-1.1B-Chat-v1.0-4bit-128g"
 
 
@@ -127,7 +127,6 @@ def from_quantized(
         device: Optional[Union[str, int]] = None,
         backend: BACKEND = BACKEND.AUTO,
         quantize_config: Optional[QuantizeConfig | Dict] = None,
-        model_basename: Optional[str] = None,
         use_safetensors: bool = True,
         trust_remote_code: bool = False,
         # verify weight files matches predefined hash during loading
@@ -146,7 +145,6 @@ def from_quantized(
             device=device,
             backend=backend,
             quantize_config=quantize_config,
-            model_basename=model_basename,
             use_safetensors=use_safetensors,
             trust_remote_code=trust_remote_code,
             verify_hash=verify_hash,