Les modèles de langage large (LLMs), tels que GPT-3 de OpenAI, sont conçus pour comprendre et générer du texte de manière cohérente et pertinente. Toutefois, un défi majeur pour ces modèles est la gestion des ambiguïtés lexicales. Les ambiguïtés lexicales se produisent lorsqu’un mot ou une expression peut avoir plusieurs significations différentes, dépendant du contexte.
Exemple :
- “The dog began to bark loudly.“
- “The bark of the tree is rough.”
Dans le premier exemple, la présence de “dog” et “loudly” aide le modèle à déterminer que “bark” fait référence à l’aboiement. Dans le second exemple, “tree” et “rough” aident à identifier l’écorce.
Source:
- Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Nicolaus Copernicus University.
- Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., & Amodei, D. (2020). Language Models are Few-Shot Learners. In Advances in Neural Information Processing Systems, 33, 1877-1901.
Exemple de modélisation contextuelle :
- “The CRP levels were abnormally high in the patient’s blood test.”
Ici, le modèle formé dans un contexte médical comprendra “CRP” comme “C-reactive protein”.
En conclusion, les LLMs traitent les ambiguïtés lexicales principalement en utilisant le contexte environnant, les contextual embeddings, et des techniques d’apprentissage profond. En combinant ces approches avec une variété de sources de données et des méthodes de fine-tuning, ils parviennent à réduire efficacement les ambiguïtés lexicales.
Sources :
- Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” 2019.
- Brown et al., “Language Models are Few-Shot Learners,” 2020.