Merge d2a0df9e9d into 37a239ca50

2025-07-04 05:10:06 +06:00 · 2025-07-02 17:03:51 -04:00 · 2025-07-02 17:03:51 -04:00 · e4582ff16e
commit e4582ff16e
parent 37a239ca50 d2a0df9e9d
4 changed files with 10 additions and 16 deletions
--- a/src/transformers/quantizers/quantizer_bnb_4bit.py
+++ b/src/transformers/quantizers/quantizer_bnb_4bit.py
@ -363,3 +363,9 @@ class Bnb4BitHfQuantizer(HfQuantizer):
            model, self.modules_to_not_convert, quantization_config=self.quantization_config
        )
        return model
    @property
    def is_compileable(self) -> bool:
        # Compatible with PyTorch 2.4+ for fullgraph=False.
        # Requires PyTorch 2.8 nightly for fullgraph=True.
        return version.parse(importlib.metadata.version("bitsandbytes")) >= version.parse("0.46.0")
--- a/src/transformers/quantizers/quantizer_bnb_8bit.py
+++ b/src/transformers/quantizers/quantizer_bnb_8bit.py
@ -314,3 +314,7 @@ class Bnb8BitHfQuantizer(HfQuantizer):
            model, self.modules_to_not_convert, quantization_config=self.quantization_config
        )
        return model
    @property
    def is_compileable(self) -> bool:
        return version.parse(importlib.metadata.version("bitsandbytes")) >= version.parse("0.46.0")
--- a/tests/quantization/bnb/test_4bit.py
+++ b/tests/quantization/bnb/test_4bit.py
@ -831,11 +831,3 @@ class Bnb4bitCompile(unittest.TestCase):
            max_new_tokens=10,
            cache_implementation="static",
        )
        with self.assertRaises(Exception):
            # overwrite property
            object.__setattr__(self.model_4bit.hf_quantizer, "is_compileable", True)
            self.model_4bit.generate(
                input_ids=encoded_input["input_ids"].to(self.model_4bit.device),
                max_new_tokens=10,
                cache_implementation="static",
            )
--- a/tests/quantization/bnb/test_mixed_int8.py
+++ b/tests/quantization/bnb/test_mixed_int8.py
@ -1005,11 +1005,3 @@ class Bnb8bitCompile(unittest.TestCase):
            max_new_tokens=10,
            cache_implementation="static",
        )
        with self.assertRaises(Exception):
            object.__setattr__(self.model_8bit.hf_quantizer, "is_compileable", True)
            self.model_8bit.generate(
                input_ids=encoded_input["input_ids"].to(self.model_8bit.device),
                max_new_tokens=10,
                cache_implementation="static",
            )