Les grands modèles de langage (LLMs), tels que GPT-3 et ses successeurs, présentent plusieurs risques de sécurité qui doivent être pris en compte. Les risques peuvent être classés en plusieurs catégories, notamment la désinformation, l’ingénierie sociale, l’exploitation des faiblesses du modèle, et la confidentialité des données. Voici une analyse détaillée de ces risques, assortie d’exemples et de sources fiables.
Les LLMs peuvent générer du texte qui semble crédible mais qui est en réalité faux ou trompeur. Par exemple, un LLM peut être utilisé pour créer des articles de presse ou des messages sur les médias sociaux qui propagent de la désinformation. Ceci peut avoir des conséquences graves, notamment lors d’élections ou de crises sanitaires.
Exemple : Pendant la pandémie de COVID-19, des informations erronées sur les vaccins pourraient avoir été générées par des LLMs et diffusées sur les réseaux sociaux, semant le doute et la confusion.
Source :
- Zellers, R., Holtzman, A., Bisk, Y., Farhadi, A., & Choi, Y. (2019). Defending Against Neural Fake News. arXiv preprint arXiv:1905.12616.
Les LLMs peuvent être utilisés pour mener des attaques par ingénierie sociale, où des messages personnalisés et persuasifs sont créés pour manipuler les individus. Ces messages peuvent être utilisés pour inciter les personnes à révéler des informations sensibles ou à réaliser des actions compromettantes.
Exemple : Un attaquant pourrait utiliser un LLM pour générer des emails personnalisés imitant le style d’écriture d’un supérieur hiérarchique, afin de tromper un employé et obtenir des informations confidentielles.
Source :
- Brundage, M., et al. (2018). The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation. arXiv preprint arXiv:1802.07228.
Les LLMs peuvent être victimes d’attaques adversariales où de petits changements dans l’entrée peuvent provoquer des sorties incorrectes ou dangereuses. Ces vulnérabilités peuvent être exploitées par des acteurs malveillants pour contourner des systèmes de sécurité ou réaliser des actions non désirées.
Exemple : Des chercheurs ont montré que des modifications subtiles des inputs textuels peuvent faire en sorte que le modèle produise des réponses spécifiques qui peuvent être exploitées à des fins malveillantes.
Source :
- Wallace, E., Feng, S., Kandpal, N., Singh, S., & Gardner, M. (2019). Universal Adversarial Triggers for Attacking and Analyzing NLP. arXiv preprint arXiv:1908.07125.
Les LLMs nécessitent de grandes quantités de données pour l’entraînement, ce qui soulève des préoccupations en matière de confidentialité. Les modèles peuvent involontairement mémoriser et reproduire des informations sensibles contenues dans ces données d’entraînement.
Exemple : Des chercheurs ont démontré qu’il est possible d’extraire des numéros de sécurité sociale et des adresses en sondant un LLM suffisamment entraîné, révélant ainsi des données personnelles stockées dans le modèle.
Source :
- Carlini, N., et al. (2020). Extracting Training Data from Large Language Models. arXiv preprint arXiv:2012.07805.
Les LLMs offrent des capacités impressionnantes mais présentent également des risques de sécurité significatifs. Une utilisation prudente de ces modèles et la mise en place de mesures de sécurité adéquates sont essentielles pour minimiser ces risques. Il est également crucial que la recherche continue d’explorer ces aspects pour développer des solutions robustes. Les sources mentionnées fournissent une base solide pour comprendre les divers enjeux de sécurité associés aux LLMs.