De veiligheidsrisico’s verbonden aan LLM’s (Large Language Models, zoals GPT-3 en GPT-4) omvatten diverse aspecten die betrekking hebben op zowel technische als maatschappelijke dimensies. Hieronder worden enkele van de belangrijkste risico’s besproken, ondersteund met voorbeelden en bronnen.
1. Misinformatie en desinformatie: LLM’s kunnen worden misbruikt om grootschalig misinformatie of desinformatie te verspreiden. Omdat deze modellen getraind zijn op grote hoeveelheden tekst uit diverse bronnen, kunnen ze overtuigende, maar onjuiste informatie genereren. Voorbeeld: In 2020 ontdekten onderzoekers dat GPT-3 misinformatie over COVID-19 kon genereren en verspreiden (Brown et al., 2020).
1. Bevooroordeeldheid en Discriminatie: LLM’s kunnen bestaande vooroordelen in de getrainde data repliceren en versterken. Dit kan leiden tot discriminerende output op basis van geslacht, ras, religie, etc. Voorbeeld: Onderzoek heeft aangetoond dat LLM’s geneigd zijn om negatieve stereotypen te reproduceren (Bender et al., 2021).
1. Privacy en Data Security: LLM’s kunnen onbedoeld persoonlijke informatie lekken die in de trainingsdata aanwezig is. Voorbeeld: In een experiment met GPT-3, konden onderzoekers specifieke gegevens uit de gegenereerde tekst halen die terug te traceren waren naar de oorspronkelijke trainingsdata (Carlini, et al., 2021).
1. Cyberbeveiliging en Misbruik: LLM’s kunnen worden ingezet voor kwaadaardige doeleinden zoals phishing, social engineering, en het genereren van schadelijke code. Voorbeeld: OpenAI heeft zelf erkend dat door de kracht van GPT-3 het mogelijk is om automatisch geschaalde phishing-campagnes te creëren (Sandoval, 2020).
1. Autonomie en Verantwoordelijkheid: Het gebruik van LLM’s in besluitvormingsprocessen kan complicaties met zich meebrengen over wie verantwoordelijk is voor de beslissingen die door deze modellen beïnvloed worden. Voorbeeld: Dit is vooral problematisch in high-stakes sectors zoals de gezondheidszorg, waar verkeerde aanbevelingen levensbedreigende gevolgen kunnen hebben (Jiang et al., 2021).
1. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
2. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
3. Carlini, N., Tramer, F., Wallace, E., Jagielski, M., Herbert-Voss, A., Lee, K., … & Brundage, M. (2021). Extracting Training Data from Large Language Models. arXiv preprint arXiv:2012.07805.
4. Sandoval, E. (2020). Addressing the Risks of AI-Generated Phishing Content. OpenAI Blog.
5. Jiang, H., Nachum, O., & Ba, J. L. (2021). Language Models and their Uses in Various Sectors. ACM Conference Proceedings on Artificial Intelligence Ethics.
Deze bronnen geven een breed inzicht in de diverse veiligheidsrisico’s die gepaard gaan met LLM’s en illustreren de noodzaak voor verantwoord en ethisch gebruik van deze technologieën. Voor de maatschappij is het cruciaal om kennis te hebben van deze risico’s om passende maatregelen te treffen en het potentieel van LLM’s op een veilige en verantwoorde manier te benutten.