Le zero-shot et le few-shot learning sont des méthodes de machine learning qui permettent à un système d’intelligence artificielle, comme les grands modèles de langage (LLMs), de généraliser à partir de très peu, voire pas du tout, d’exemples spécifiques pour accomplir de nouvelles tâches. Bien que ces techniques soient prometteuses pour élargir les capacités des LLMs, elles posent également plusieurs défis techniques, méthodologiques et conceptuels. Voici un aperçu des principaux défis associés :
Sources :
- Xian, Y., Lampert, C. H., Schiele, B., & Akata, Z. (2018). Zero-shot learning—A comprehensive evaluation of the good, the bad and the ugly. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(9), 2251-2265.
Sources :
- Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. In Advances in neural information processing systems (Vol. 33, pp. 1877-1901).
Les LLMs comme GPT-3 sont massivement pré-entraînés sur de vastes corpus de texte. Cependant, cette pré-formation ne garantit pas nécessairement une compréhension parfaite et une capacité d’adaptation à toutes les nouvelles tâches rencontrées. Les représentations internes du modèle doivent être suffisamment flexibles pour être adaptées sous contrainte zéro ou très faible.
Sources :
- Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training. OpenAI.
Un autre défi majeur concerne l’explicabilité et le biais inhérent aux modèles. Les LLMs zéro et few-shot peuvent propager et amplifier des biais présents dans les données d’entraînement. De plus, le manque d’explicabilité sur pourquoi et comment le modèle prend certaines décisions rend difficile l’évaluation et la correction de ces biais.
Sources :
- Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
Les LLMs nécessitent des ressources computationnelles significatives pour le pré-entraînement et le fine-tuning. Le few-shot et surtout le zero-shot learning dépendent de modèles extrêmement vastes et sophistiqués pour fonctionner efficacement, ce qui pose des défis non seulement en termes de puissance de calcul mais également en termes de soutenabilité environnementale.
Sources :
- Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 3645-3650).
En conclusion, malgré leurs promesses et leurs avancées impressionnantes, le zero-shot et le few-shot learning dans les LLMs posent des défis substantiels. La recherche continue dans ce domaine vise à améliorer les capacités de généralisation, à minimiser les biais et à optimiser les ressources, afin de rendre ces modèles plus robustes, efficaces et équitables.