En ne réentraînant que certaines couches spécifiques, telles que les composants d'auto-attention et les composants MLP supérieurs, des chercheurs de l'Université de l'Illinois à Urbana-Champaign (Zhen Zhu, Yiming Gong∗ , Yao Xiao, Yaoyao Liu et Derek Hoiem) ont découvert que les modèles pouvaient acquérir de nouvelles capacités tout en conservant les anciennes, ce qui réduit les coûts de réentraînement et améliore la stabilité. Les chercheurs ont testé leur approche sur des modèles multimodaux tels que LLaVA et Qwen2.5-VL, en affinant uniquement certaines couches afin de mesurer les gains d'apprentissage, la stabilité et le degré de rétention des connaissances dans plusieurs tâches.
Les résultats mettent en évidence une approche potentiellement plus efficace pour les entreprises et les développeurs qui cherchent à mettre à jour de grands modèles linguistiques et multimodaux sans compromettre les performances existantes. Cette distinction pourrait être très importante pour les équipes d'IA dans les entreprises, qui doivent souvent tenir compte de la question de la formation sans dégradation.
Surmonter les défis liés au réentraînement
La formation d'un modèle multimodal de grande taille peut coûter des millions de dollars et prendre plusieurs semaines. À mesure que les modèles et les ensembles de données prennent de l'ampleur, il devient de plus en plus difficile de les réentraîner à partir de zéro. « Une option consiste simplement à affiner le modèle sur la nouvelle tâche », ont déclaré les chercheurs. « Cependant, au moins pour les modèles plus simples, on sait que l'ajustement fin entraîne un oubli catastrophique, de sorte qu'un modèle auparavant compétent dans de nombreuses tâches devient un expert limité dans la nouvelle tâche. » Pour vérifier si ce problème se pose pour les grands modèles multimodaux actuels, l'équipe a mené une évaluation contrôlée. Elle a formé les modèles sélectionnés à cinq tâches cibles, notamment la classification fine des oiseaux, le comptage, la réponse à des questions visuelles médicales, la lecture OCR et la lecture de l'heure. Elle a ensuite mesuré la baisse de performance sur huit benchmarks standard qui ne faisaient pas partie de l'ensemble de réglage fin.
Selon l'article, ces expériences ont conduit à deux découvertes clés. Le réglage des seules couches de projection d'auto-attention (SA Proj), la partie du modèle qui l'aide à décider sur quels éléments d'entrée se concentrer, a permis aux modèles d'apprendre de nouvelles tâches avec peu ou pas d'oubli mesurable. De plus, ce qui semblait initialement être des connaissances oubliées refaisait souvent surface lorsque le modèle était ensuite entraîné sur une autre tâche spécialisée. « Nous émettons donc l'hypothèse que ce qui ressemble à un oubli ou à une interférence après le réglage fin sur une tâche cible étroite est en fait un biais dans la distribution des résultats dû au changement de distribution des tâches », ont ajouté les chercheurs. « Grâce à une analyse approfondie lors du réglage de la tâche de comptage, nous confirmons cette hypothèse : le réglage du MLP augmente la précision de la cible, mais augmente également la probabilité de produire des jetons numériques et une baisse fortement corrélée de la précision de la tâche retenue, tandis que le réglage de l'auto-attention permet d'atteindre l'apprentissage cible sans trop de biais vers les jetons numériques et sans perdre la précision retenue. » Les résultats montrent que la perte apparente sur les tâches retenues après un réglage fin est souvent temporaire : les performances qui baissent à un certain stade peuvent se rétablir par la suite, ont déclaré les chercheurs dans l'article. « Nous attribuons ce comportement à un changement mesurable dans la distribution des jetons suivants plutôt qu'à une perte de concepts. Une simple sonde de biais de comptage rend cette dérive visible, et une analyse résiduelle-logit par couche montre que la plupart des changements sont écrits par les blocs MLP tardifs, et non par l'auto-attention. »
Implications et préparation des entreprises
Les analystes du secteur affirment que ces résultats pourraient influencer la manière dont les entreprises abordent la maintenance et l'optimisation des modèles d'IA. « Cette recherche propose une approche innovante qui pourrait redéfinir les pratiques des développeurs en entreprise, ce qui permettrait de gagner du temps et de réduire les coûts grâce à la mise en place d'un réentraînement spécifique à chaque couche », explique Faisal Kawoosa, fondateur et analyste en chef chez Techarc. « Elle aborde également un problème très courant, celui de l'« oubli catastrophique ». Le réglage des couches de projection d'auto-attention (SA Proj) a permis d'obtenir des résultats d'apprentissage sans aucune baisse de performance. » M. Kawoosa a noté que, bien que ces résultats soient prometteurs, une validation supplémentaire sera essentielle. D'autres tests dans plusieurs scénarios et environnements seront nécessaires pour confirmer l'efficacité et la robustesse de cette approche dans le contexte des entreprises.
Sanchit Vir Gogia, analyste en chef et CEO de Greyhound Research, a déclaré que l'approche mentionnée par les chercheurs pourrait rendre la maintenance de l'IA moins perturbante pour les équipes technologiques. « Au lieu de projets de réentraînement gigantesques qui engloutissent des trimestres et des capitaux, les mises à jour peuvent désormais se faire discrètement et fréquemment, un peu comme l'entretien d'une voiture plutôt que la reconstruction d'un moteur », a déclaré M. Gogia. Cependant, l'adoption d'un réentraînement partiel à grande échelle nécessitera des processus de développement et une gouvernance plus solides. « La reconversion partielle ne fonctionne que lorsque le processus est à la hauteur des promesses », a ajouté M. Gogia. « Les entreprises auront besoin d'un cadre approprié autour de ce flux de travail, notamment en matière de contrôle des versions, de surveillance et de reproductibilité, afin de le rendre durable à grande échelle. »