Le tecniche di post-elaborazione sono cruciale per migliorare l’output dei modelli linguistici di grandi dimensioni (Large Language Models, LLM) come GPT-3 e altri. Queste tecniche permettono di affinare e correggere le risposte generate dagli LLM, rendendole più accurate, coerenti e utili. Vediamo alcune delle principali tecniche utilizzate, con esempi e fonti.
Esempio: Dato un output come “Il gatto salito sù l’albero non trovato.”, un correttore grammaticale potrebbe suggerire “Il gatto salito sull’albero non è stato trovato.”
Fonte: Hemati, W., Mehler, A. (2019). \*_Automated Text Improvement by Text-to-Text Transfer_. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Esempio: Se un LLM genera contenuti che includono lingue offensive, un filtro può essere applicato per rimuovere o sostituire tali espressioni.
Fonte: Bender, E. M., Gebru, T., McMillan-Major, A., Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Association for Computing Machinery.
Esempio: Se l’output generato è “Newton ha scoperto la gravità,” è possibile espandere con “nel XVII secolo grazie alle sue osservazioni sulle mele che cadevano dagli alberi.”
Fonte: Guu, K., Lee, K., Tung, Z., Pasupat, P., Chang, M. (2020). REALM: Retrieval-Augmented Language Model Pre-Training. arXiv preprint arXiv:2002.08909.
Esempio: Un paragrafo lungo e complicato sull’evoluzione delle stelle potrebbe essere riassunto in poche frasi chiare e concise.
Fonte: Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Liu, P. J. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research.
Esempio: Nell’ambito medico, un LLM potrebbe generare una descrizione generica di un farmaco, che può essere arricchita con dettagli tecnico-scientifici.
Fonte: Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H., Kang, J. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics.
Esempio: Se un LLM afferma che “il più grande oceano della Terra è l’Oceano Atlantico”, un sistema di verifica può correggere con “il più grande oceano della Terra è l’Oceano Pacifico”.
Fonte: Thorne, J., Vlachos, A. (2018). Automated Fact Checking: Task Formulations, Methods and Future Directions. In Proceedings of the 27th International Conference on Computational Linguistics.
Utilizzando queste tecniche di post-elaborazione, è possibile migliorare notevolmente la qualità e l’affidabilità degli output generati dagli LLM, rendendo questi strumenti ancora più utili e affidabili nelle applicazioni pratiche.