transformers

mirror of https://github.com/huggingface/transformers.git synced 2025-08-03 03:31:05 +06:00

History

Zach Mueller d9f733625c Enable Gradient Accumulation fix across all models + trainer fully in forward() (#34283 ) * Enable grad accum fix across all models + trainer fully in forward() * handle peft case * Account for DDP: need to run scale tests * Use accelerator state * Quality * Guard * Experiment w/ only fairseq fix * Fairseq only * Revert multiply_grads fix * Mult by grad accum to fully bring back solution * Style * Good to go now * Skip fx tests for now * Bookmark * Working now	2024-10-23 11:24:57 -04:00
..
__init__.py	Add Qwen2MoE (#29377 )	2024-03-27 02:11:55 +01:00
test_modeling_qwen2_moe.py	Enable Gradient Accumulation fix across all models + trainer fully in forward() (#34283 )	2024-10-23 11:24:57 -04:00

Enable Gradient Accumulation fix across all models + trainer fully in forward() (#34283 )

* Enable grad accum fix across all models + trainer fully in forward()

* handle peft case

* Account for DDP: need to run scale tests

* Use accelerator state

* Quality

* Guard

* Experiment w/ only fairseq fix

* Fairseq only

* Revert multiply_grads fix

* Mult by grad accum to fully bring back solution

* Style

* Good to go now

* Skip fx tests for now

* Bookmark

* Working now

2024-10-23 11:24:57 -04:00

__init__.py

Add Qwen2MoE (#29377 )

2024-03-27 02:11:55 +01:00

test_modeling_qwen2_moe.py

Enable Gradient Accumulation fix across all models + trainer fully in forward() (#34283 )

2024-10-23 11:24:57 -04:00