Come gestire l'oblio catastrofico negli LLM?

L’oblio catastrofico è un problema significativo negli algoritmi di machine learning, inclusi i Large Language Models (LLM), e descrive la tendenza di un modello a dimenticare le informazioni apprese in precedenza quando viene addestrato su nuove informazioni. Questo problema è critico nell’apprendimento incrementale e continuo, dove un modello deve adattarsi costantemente a nuovi dati senza perdere la conoscenza pregressa.

Per gestire l’oblio catastrofico negli LLM, ci sono diverse tecniche avanzate e metodologie che possono essere implementate:

1. Elastic Weight Consolidation (EWC): L’EWC è una tecnica che penalizza i cambiamenti nei pesi del modello che sono critici per le performance sui task precedenti. Questo metodo mantiene una sorta di memoria degli esempi passati determinando quanto un determinato peso sia importante per i compiti precedentemente affrontati. Più un peso è importante, maggiore sarà la penalizzazione se viene modificato. (Kirkpatrick et al., 2017)

1. Replay-Based Methods: Questo approccio implica il mantenimento di un buffer o di una memoria dei dati precedenti e la loro ripresentazione al modello durante l’addestramento sui nuovi dati. Esempi includono i metodi come il Generative Replay, dove un modello generativo (ad esempio, una GAN) è utilizzato per generare esempi dei dati passati. (Robins, 1995)

1. Progressive Neural Networks: Le reti neurali progressive aggiungono nuove reti per ogni task senza alterare le connessioni nelle reti già esistenti. Questo permette al modello di preservare la conoscenza dei task precedenti mentre si adatta a nuovi task, incorporando nuove unità e mantenendo congelate le parti rilevanti dei modelli precedenti. (Rusu et al., 2016)

1. Regularization Techniques: Queste tecniche applicano delle penalizzazioni che controllano l’aggiornamento dei pesi tenendo in considerazione i task precedenti. Uno degli esempi è la tecnica “Learning without Forgetting”, che utilizza una regularizzazione basata sulle predizioni del vecchio modello per preservare la capacità di riconoscimento dei task già appresi. (Li e Hoiem, 2017)

1. Dual-Memory Models: Alcuni approcci utilizzano due sistemi di memoria, uno per la memoria a lungo termine e uno per la memoria a breve termine. Il modello utilizza la memoria a breve termine per apprendere nuove informazioni e successivamente le trasferisce in modo selettivo nella memoria a lungo termine, aiutando a preservare la conoscenza precedente. (Parisi et al., 2019)

Esempi pratici:
- GPT-3: Anche se non utilizza direttamente le tecniche sopra menzionate per la gestione dell’oblio catastrofico, il suo approccio di pre-allenamento su una vasta quantità di dati e l’uso intensivo del fine-tuning per compiti specifici serve come base per esplorare future tecniche di apprendimento continuo.
- BERT: Modelli come BERT possono beneficiare di tecniche come EWC durante il fine-tuning su vari compiti specifici senza pregiudicare la performance sui task precedenti.

Fonti:
- Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A. A., … & Hadsell, R. (2017). Overcoming catastrophic forgetting in neural networks. _Proceedings of the National Academy of Sciences, 114_(13), 3521-3526.
- Robins, A. (1995). Catastrophic forgetting, rehearsal and pseudorehearsal. _Connection Science, 7_(2), 123-146.
- Rusu, A. A., Rabinowitz, N. C., Desjardins, A., Soyer, H., Kirkpatrick, J., Kavukcuoglu, K., … & Hadsell, R. (2016). Progressive neural networks. arXiv preprint arXiv:1606.04671.
- Li, Z., & Hoiem, D. (2017). Learning without forgetting. _IEEE Transactions on Pattern Analysis and Machine Intelligence, 40_(12), 2935-2947.
- Parisi, G. I., Kemker, R., Part, J. L., Kanan, C., & Wermter, S. (2019). Continual lifelong learning with neural networks: A review. Neural Networks, 113, 54-71.

Queste tecniche sono frutto di ricerche avanzate e rappresentano lo stato dell’arte nell’affrontare l’oblio catastrofico negli LLM e negli altri sistemi di machine learning continui.