OpenAI utilise deux formes principales de modération pour ChatGPT : la modération automatisée et la revue humaine. Les modèles de langage de ChatGPT sont formés pour refuser de produire certains types de contenus, comme la pornographie, l’incitation à la haine ou la violence, et pour respecter les lois applicables.
Par ailleurs, les filtres de sécurité de ChatGPT sont destinés à bloquer ou à avertir l’utilisateur avant d’envoyer certains types de contenus dangereux ou inappropriés. Cependant, ces mesures ne sont pas parfaites, et il peut y avoir des faux positifs et des faux négatifs.
OpenAI recueille également les retours des utilisateurs pour améliorer constamment ces mécanismes de modération. Ainsi, l’effort de modération de ChatGPT est un processus continu d’apprentissage et d’amélioration.