La distillazione modello, nota anche come distillazione del sapere (knowledge distillation), è una tecnica di compressione e trasferimento del sapere utilizzata per migliorare l’efficienza e le prestazioni dei modelli di machine learning, in particolare dei modelli di deep learning. Questo processo comporta il trasferimento delle conoscenze da un modello di grandi dimensioni e altamente performante (detto “modello insegnante” o “teacher model”) a un modello più piccolo e facile da distribuire (detto “modello studente” o “student model”).
La distillazione modello è stata introdotta da Geoffrey Hinton e altri in un lavoro del 2015 intitolato “Distilling the Knowledge in a Neural Network”. In questo contesto, l’output del modello insegnante viene utilizzato per addestrare il modello studente. In pratica, invece di utilizzare semplicemente i dati di addestramento originali, il modello studente apprende anche dai “soft targets” forniti dal modello insegnante, che rappresentano le probabilità predette per ogni classe. Questo consente al modello studente di assimilare informazioni più ricche e dettagliate rispetto a quelle contenute nei semplici etichette binarie.
Applicata ai modelli linguistici di grandi dimensioni (Large Language Models, LLM), come GPT-3 o BERT, la distillazione del sapere può portare a significativi miglioramenti in termini di efficienza computazionale e velocità di inferenza. Questo è particolarmente rilevante poiché i LLM tendono a essere molto complessi e richiedono un notevole investimento in risorse computazionali per l’addestramento e l’inferenza.
Esempi di applicazione della distillazione nei LLM includono:
1. TinyBERT: TinyBERT è una versione distillata di BERT che conserva gran parte della precisione del modello originale ma con un numero di parametri significativamente ridotto, rendendolo molto più leggero e veloce da eseguire. Nel lavoro “TinyBERT: Distilling BERT for Natural Language Understanding” (Jiao et al., 2020), viene descritto come questo modello studente è stato addestrato utilizzando la distillazione del sapere, condotta su vari livelli del modello insegnante BERT, tra cui l’output, le rappresentazioni intermedie e il soft target di previsione.
1. DistilBERT: DistilBERT è un altro esempio di modello distillato da BERT. In “DistilBERT, a distilled version of BERT: smaller, faster, cheaper, and lighter” (Sanh et al., 2019), gli autori mostrano come, partendo dal modello BERT insegnante, sia stato possibile ottenere un modello più compatto con il 40% di riduzione della grandezza del modello e il 60% di riduzione del tempo di inferenza, mantenendo il 97% della prestazione su una varietà di compiti di comprensione del linguaggio naturale.
1. ALBERT: Anche se non è un esempio puro di distillazione del sapere, ALBERT (A Lite BERT) utilizza tecniche di modellazione efficienti per ridurre il numero di parametri mantenendo alte prestazioni. Questo include sostituzioni dei modelli originali con versioni più efficienti e meccanismi di parametrizzazione condivisi.
Le tecniche di distillazione del sapere aiutano a affrontare uno dei principali svantaggi dei modelli di maggiori dimensioni: la loro enorme richiesta di risorse computazionali durante l’addestramento e l’inferenza. Grazie a queste tecniche, è possibile produrre modelli leggeri che possono essere utilizzati in applicazioni real-time e su dispositivi con potenza computazionale limitata.
Fonti utilizzate:
1. Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531. https://arxiv.org/abs/1503.02531
2. Jiao, X., Yin, Y., Shang, L., Jiang, X., Chen, X., Li, L., Wang, F., & Liu, Q. (2020). TinyBERT: Distilling BERT for Natural Language Understanding. arXiv:1909.10351. https://arxiv.org/abs/1909.10351
3. Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108. https://arxiv.org/abs/1910.01108