axolotl-ai-cloud · winglian · Dec 12, 2023 · Dec 12, 2023 · Dec 12, 2023 · NanoCode012
diff --git a/docker/Dockerfile-runpod b/docker/Dockerfile-runpod
@@ -5,6 +5,7 @@ ENV HF_DATASETS_CACHE="/workspace/data/huggingface-cache/datasets"
 ENV HUGGINGFACE_HUB_CACHE="/workspace/data/huggingface-cache/hub"
 ENV TRANSFORMERS_CACHE="/workspace/data/huggingface-cache/hub"
 ENV HF_HOME="/workspace/data/huggingface-cache/hub"
+ENV HF_HUB_ENABLE_HF_TRANSFER=1
 
 COPY scripts/runpod-entrypoint.sh /root/runpod-entrypoint.sh
 

diff --git a/src/axolotl/cli/merge_lora.py b/src/axolotl/cli/merge_lora.py
@@ -20,6 +20,10 @@ def do_cli(config: Path = Path("examples/"), **kwargs):
     parsed_cli_args.merge_lora = True
     parsed_cfg = load_cfg(config, merge_lora=True, **kwargs)
 
+    parsed_cfg.load_in_4bit = False
+    parsed_cfg.load_in_8bit = False
+    parsed_cfg.flash_attention = False
+
     do_merge_lora(cfg=parsed_cfg, cli_args=parsed_cli_args)
 
 

diff --git a/src/axolotl/utils/models.py b/src/axolotl/utils/models.py
@@ -191,6 +191,7 @@ def load_model(
 
     # TODO refactor as a kwarg
     load_in_8bit = cfg.load_in_8bit
+    load_in_4bit = cfg.load_in_4bit
 
     if hasattr(model_config, "model_type") and model_config.model_type == "btlm":
         if cfg.flash_attention:
@@ -535,7 +536,7 @@ def load_model(
 
     model, lora_config = load_adapter(model, cfg, cfg.adapter)
 
-    if cfg.ddp and not load_in_8bit:
+    if cfg.ddp and not load_in_8bit and not load_in_4bit:
         model.to(f"cuda:{cfg.local_rank}")
 
     if torch.cuda.device_count() > 1 and int(os.getenv("WORLD_SIZE", "1")) == 1: