Comment gérer l'oubli catastrophique dans les LLMs ?

L’oubli catastrophique (ou “catastrophic forgetting” en anglais) est un problème courant dans les réseaux de neurones, y compris les modèles de langage larges (LLMs – Large Language Models), où un modèle préalablement entraîné sur une tâche ou un ensemble de données perd ses performances antérieures lorsqu’il est entraîné sur de nouvelles tâches ou données. Voici quelques méthodes pour gérer ce problème, en se basant sur des sources fiables et reconnues.

1. Ré-entraînement et Régularisation : Une approche courante pour lutter contre l’oubli catastrophique est le ré-entraînement périodique du modèle sur les données anciennes en plus des nouvelles données. Diverses techniques de régularisation peuvent également être appliquées. Par exemple, l’algorithme EWC (Elastic Weight Consolidation) propose de pénaliser les changements de poids importants des paramètres critiques pour les tâches antérieures. Cette méthode a été proposée par Kirkpatrick et al. (2017) dans leur article “Overcoming catastrophic forgetting in neural networks” (https://www.pnas.org/content/114/13/3521).

1. Apprendre sans oublier (LwF) : Le concept de “Learning without Forgetting” implique de conserver les prédictions du modèle précédent pour les utiliser comme pseudo-étiquettes lors de l’entraînement sur une nouvelle tâche. Cela permet au modèle de maintenir ses performances sur les tâches précédentes. Li et Hoiem (2016) ont développé cette technique et l’ont décrite dans leur article “Learning without Forgetting” (https://arxiv.org/abs/1606.09282).

1. Tranfert d’apprentissage et Fine-Tuning : L’apprentissage par transfert est une méthode où un modèle pré-entraîné sur une grande base de données est fine-tuné sur une nouvelle tâche avec un ensemble de données plus petit. Bien que cela puisse parfois provoquer un oubli partiel, le fait d’utiliser une combinaison de freezing (garder certains poids fixes) et de fine-tuning (ajustement des poids) peut aider à minimiser l’oubli. Cela a été démontré par plusieurs études, y compris celle de Howard et Ruder (2018) intitulée “Universal Language Model Fine-tuning for Text Classification” (https://arxiv.org/abs/1801.06146).

1. Ensembles de modèles (Model Ensembling) : Une autre stratégie est d’utiliser des ensembles de modèles, où plusieurs modèles sont entraînés indépendamment sur différentes tâches, et leurs prédictions sont combinées lors de l’inférence. Cette méthode réduit ainsi le risque d’oubli catastrophique. L’ensemble implicite (Implicit Ensemble) est particulièrement intéressant, car il permet de bénéficier des avantages des modèles d’ensemble sans le coût élevé en termes de ressources. Cette technique a été mentionnée par Lee et al. (2017) dans “Overcoming Catastrophic Forgetting by Incremental Moment Matching” (https://arxiv.org/abs/1703.08475).

1. Réseaux Neuraux Progressifs (Progressive Neural Networks) : Cette approche consiste à ajouter de nouvelles colonnes de neurones pour chaque nouvelle tâche, tout en gardant les colonnes existantes fixes. Les nouvelles colonnes peuvent toutefois accéder aux représentations des colonnes plus anciennes. Cette méthode permet au modèle de continuer à apprendre de nouvelles tâches sans interférer avec les représentations antérieures. Rusu et al. (2016) ont exploré cette approche dans leur papier, “Progressive Neural Networks” (https://arxiv.org/abs/1606.04671).

Ces techniques peuvent être combinées selon les besoins spécifiques et les contraintes des projets. Par exemple, on pourrait utiliser l’EWC conjointement avec des ensembles de modèles pour une robustesse accrue contre l’oubli catastrophique. Chacune de ces méthodes a ses avantages et ses limitations, donc le choix de la technique appropriée dépendra des exigences particulières de l’application et des ressources disponibles.

Références :
- Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A. A., . . . & Hadsell, R. (2017). Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences, 114(13), 3521-3526.
- Li, Z., & Hoiem, D. (2016). Learning without forgetting. IEEE Transactions on Pattern Analysis and Machine Intelligence.
- Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. arXiv preprint arXiv:1801.06146.
- Lee, S., Kim, J., Ha, J., & Zhang, B. (2017). Overcoming Catastrophic Forgetting by Incremental Moment Matching. arXiv preprint arXiv:1703.08475.
- Rusu, A. A., Rabinowitz, N. C., Desjardins, G., Soyer, H., Kirkpatrick, J., Kavukcuoglu, K., … & Hadsell, R. (2016). Progressive neural networks. arXiv preprint arXiv:1606.04671.