enable d_fine finetuning properly (#37962)

add pre_output in the front Co-authored-by: Pavel Iakubovskii <qubvel@gmail.com>
2025-07-24 23:08:57 +06:00 · 2025-05-15 00:53:04 +09:00 · 2025-05-15 00:53:04 +09:00 · aa27fa75cd
commit aa27fa75cd
parent e021bf6bf8
2 changed files with 8 additions and 0 deletions
--- a/src/transformers/models/d_fine/modeling_d_fine.py
+++ b/src/transformers/models/d_fine/modeling_d_fine.py
@ -1248,6 +1248,10 @@ class DFineDecoder(DFinePreTrainedModel):

            if self.class_embed is not None and (self.training or i == self.eval_idx):
                scores = self.class_embed[i](hidden_states)
+                # Add initial logits and reference points with pre-bbox head
+                if i == 0:
+                    intermediate_logits += (scores,)
+                    intermediate_reference_points += (new_reference_points,)
                # Lqe does not affect the performance here.
                scores = self.lqe_layers[i](scores, pred_corners)
                intermediate_logits += (scores,)
--- a/src/transformers/models/d_fine/modular_d_fine.py
+++ b/src/transformers/models/d_fine/modular_d_fine.py
@ -803,6 +803,10 @@ class DFineDecoder(RTDetrDecoder):

            if self.class_embed is not None and (self.training or i == self.eval_idx):
                scores = self.class_embed[i](hidden_states)
+                # Add initial logits and reference points with pre-bbox head
+                if i == 0:
+                    intermediate_logits += (scores,)
+                    intermediate_reference_points += (new_reference_points,)
                # Lqe does not affect the performance here.
                scores = self.lqe_layers[i](scores, pred_corners)
                intermediate_logits += (scores,)