From 5b7f4bc6c1c12111623261e03db480a50a90aa89 Mon Sep 17 00:00:00 2001
From: isaac-vidas <80056737+isaac-vidas@users.noreply.github.com>
Date: Fri, 19 Jan 2024 07:31:25 -0500
Subject: [PATCH] [`Llava`] Fix convert_llava_weights_to_hf.py script (#28570)

* Update convert_llava_weights_to_hf.py

Fix call to `tokenizer.add_tokens`

* Add special_tokens to tokenizer.add_tokens in convert_vipllava_weights_to_hf.py
---
 src/transformers/models/llava/convert_llava_weights_to_hf.py    | 2 +-
 .../models/vipllava/convert_vipllava_weights_to_hf.py           | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)
diff --git a/src/transformers/models/llava/convert_llava_weights_to_hf.py b/src/transformers/models/llava/convert_llava_weights_to_hf.py
index 65b58236db1..cd2f46e003f 100644
--- a/src/transformers/models/llava/convert_llava_weights_to_hf.py
+++ b/src/transformers/models/llava/convert_llava_weights_to_hf.py
@@ -55,7 +55,7 @@ def convert_llava_llama_to_hf(text_model_id, vision_model_id, output_hub_path, o
     text_config = AutoConfig.from_pretrained(text_model_id)
 
     tokenizer = AutoTokenizer.from_pretrained(text_model_id)
-    tokenizer.add_tokens(AddedToken("<image>", special=True, normalized=False), special=True)
+    tokenizer.add_tokens(AddedToken("<image>", special=True, normalized=False), special_tokens=True)
     tokenizer.add_special_tokens({"pad_token": "<pad>"})
 
     image_processor = CLIPImageProcessor.from_pretrained(vision_model_id)
diff --git a/src/transformers/models/vipllava/convert_vipllava_weights_to_hf.py b/src/transformers/models/vipllava/convert_vipllava_weights_to_hf.py
index a96d56084ce..9c56cf74a7a 100644
--- a/src/transformers/models/vipllava/convert_vipllava_weights_to_hf.py
+++ b/src/transformers/models/vipllava/convert_vipllava_weights_to_hf.py
@@ -58,7 +58,7 @@ def convert_vipllava_llama_to_hf(text_model_id, vision_model_id, output_hub_path
     text_config = AutoConfig.from_pretrained(text_model_id)
 
     tokenizer = AutoTokenizer.from_pretrained(text_model_id)
-    tokenizer.add_tokens(AddedToken("<image>", special=True, normalized=False))
+    tokenizer.add_tokens(AddedToken("<image>", special=True, normalized=False), special_tokens=True)
     tokenizer.add_special_tokens({"pad_token": "<pad>"})
 
     image_processor = CLIPImageProcessor.from_pretrained(vision_model_id)