Wie geht man mit katastrophalem Vergessen in LLMs um?

Katastrophales Vergessen, auch bekannt als „Catastrophic Forgetting“ oder „Catastrophic Interference“, ist ein bedeutendes Problem in maschinellen Lernsystemen, insbesondere beim Training von Künstlichen Neuronalen Netzen (KNN) und Sprachmodellen wie LLMs (Large Language Models). Dieses Phänomen tritt auf, wenn ein Modell, das in mehreren Phasen mit verschiedenen Datensätzen trainiert wird, das Gelernte aus früheren Phasen vergisst, wenn es neue Information lernt. Dieses Problem stellt eine Herausforderung dar, da viele Anwendungen kontinuierliches Lernen erfordern, bei dem ein Modell ständig mit neuen Daten aktualisiert wird, ohne dass das alte Wissen verloren geht.

Es gibt mehrere Methoden, um mit katastrophalem Vergessen umzugehen. Eine der etablierten Methoden ist das “Elastic Weight Consolidation” (EWC). Diese Technik wurde von Kirkpatrick et al. in ihrer Arbeit „Overcoming catastrophic forgetting in neural networks“ vorgestellt. EWC funktioniert, indem es wichtige Gewichte im neuronalen Netzwerk identifiziert und deren Veränderung während des Trainings auf neuen Datensätzen einschränkt. Dies ermöglicht das Modell, neue Aufgaben zu lernen, während es gleichzeitig das Gelernte von früheren Aufgaben bewahrt. Die Idee ist, die Gewichte, die für frühere Aufgaben wichtig waren, mit einem „Elastizitäts“-Term zu schützen, der ihre Änderung penalisiert (Kirkpatrick et al., 2017).

Ein weiteres Konzept, das gegen katastrophisches Vergessen hilft, ist das „Progressive Neural Networks“. Diese Methode wurde von Rusu et al. in ihrer Arbeit „Progressive Neural Networks“ eingeführt. Bei diesem Ansatz wird für jede neue Aufgabe ein neuer Satz von Modulen im neuronalen Netzwerk hinzugefügt. Diese neuen Module beziehen Informationen von den bestehenden Modulen, die von früheren Aufgaben trainiert wurden, und integrieren neues Wissen, ohne das alte zu überschreiben (Rusu et al., 2016).

Eine weitere innovative Methode ist das “Memory Aware Synapses” (MAS). Diese Methode funktioniert ähnlich wie EWC, indem sie die Synapsen-Gewichte, die für verschiedene Aufgaben wichtig sind, durch eine spezielle Regularisierungsstrategie schützt. Daran arbeiten unter anderem Aljundi et al., die gezeigt haben, dass diese Methodik effektiv das Vergessen in neuronalen Netzwerken verhindert (Aljundi et al., 2018).

Darüber hinaus gewinnt das Konzept des „Generativen Replay“ immer mehr an Bedeutung. Bei dieser Methode wird ein generatives Modell (wie etwa ein Generative Adversarial Network, GAN) trainiert, das frühere Lernaufgaben synthetisch replizieren kann. Beim Training auf neue Aufgaben kann das ursprüngliche Modell dann auf diese generierten Daten aus dem Replay zugreifen, als wären es echte Daten, um das zuvor Gelernte zu bewahren (Shin et al., 2017).

Zusätzlich zu den spezifisch aufgeführten Methoden, spielt auch die Wahl der Architektur des neuronalen Netzes eine wesentliche Rolle. Architekturen, die modular aufgebaut sind und eine dynamische Komposition der neuronalen Verbindungen ermöglichen, haben ein geringeres Risiko für katastrophales Vergessen. Zum Beispiel setzt der Approach “Dynamic Convolutional Neural Networks (DCNNs)” auf dynamische Gewichtsanpassungen und Pfade im Netzwerk, die spezifisch für unterschiedliche Aufgaben optimiert werden können.

Zusammenfassend lässt sich sagen, dass katastrophales Vergessen in LLMs und anderen neuronalen Netzen ein komplexes Problem ist, das mit einer Vielzahl an Methoden angegangen werden kann. Die Wahl der geeigneten Methode hängt von der spezifischen Anwendung und den Anforderungen des Systems ab. Fortlaufende Forschung und Innovationen in diesem Bereich sind entscheidend, um die Leistungsfähigkeit und Effizienz von maschinellen Lernsystemen weiter zu verbessern.

Quellen:
- Kirkpatrick, J., Pascanu, R., Rabinowitz, N., et al. (2017). Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences, 114(13), 3521-3526.
- Rusu, A.A., Rabinowitz, N.C., Desjardins, G., et al. (2016). Progressive Neural Networks. arXiv preprint arXiv:1606.04671.
- Aljundi, R., Babiloni, F., Elhoseiny, M., et al. (2018). Memory Aware Synapses: Learning what (not) to forget. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 139-154).
- Shin, H., Lee, J.K., Kim, J., et al. (2017). Continual Learning with Deep Generative Replay. In Advances in Neural Information Processing Systems (NeurIPS) (pp. 2990-2999).