quick fix on concatenating text to support more datasets (#8474)

2025-07-31 18:22:34 +06:00 · 2020-11-12 06:47:08 -08:00 · 2020-11-12 06:47:08 -08:00 · 924c624a46
commit 924c624a46
parent 17b1fd804f
3 changed files with 3 additions and 3 deletions
--- a/examples/language-modeling/run_clm.py
+++ b/examples/language-modeling/run_clm.py
@ -254,7 +254,7 @@ def main():
        tokenize_function,
        batched=True,
        num_proc=data_args.preprocessing_num_workers,
-        remove_columns=[text_column_name],
+        remove_columns=column_names,
        load_from_cache_file=not data_args.overwrite_cache,
    )

--- a/examples/language-modeling/run_mlm.py
+++ b/examples/language-modeling/run_mlm.py
@ -292,7 +292,7 @@ def main():
            tokenize_function,
            batched=True,
            num_proc=data_args.preprocessing_num_workers,
-            remove_columns=[text_column_name],
+            remove_columns=column_names,
            load_from_cache_file=not data_args.overwrite_cache,
        )

--- a/examples/language-modeling/run_plm.py
+++ b/examples/language-modeling/run_plm.py
@ -279,7 +279,7 @@ def main():
            tokenize_function,
            batched=True,
            num_proc=data_args.preprocessing_num_workers,
-            remove_columns=[text_column_name],
+            remove_columns=column_names,
            load_from_cache_file=not data_args.overwrite_cache,
        )