ChatGPT ha un sistema per gestire input inappropriati o offensivi. Utilizza un approccio chiamato “filtro di rifiuto”, in cui vengono rilevati e bloccati determinati tipi di contenuti. Tuttavia, non è perfetto e talvolta può permettere discorsi che dovrebbero essere bloccati o bloccare discorsi che dovrebbero essere permessi.
Essenzialmente, l’IA ha due livelli di difesa: il primo viene impiegato durante la fase di addestramento, in cui viene instradato su un vasto campione di internet, ma i suoi supervisori umani aiutano a dirigere il suo comportamento e a rimuovere contenuti non appropriati.
Il secondo livello è un sistema di moderazione dopo l’addestramento. Questo dovrebbe impedire l’IA di scrivere o rispondere a determinati argomenti e contribuire ad evitare comportamenti non appropriati o offensivi.
OpenAI è consapevole dell’importanza di migliorare continuamente la sua capacità di rilevazione e risposta a comportamenti illeciti o inappropriati ed è impegnata a farlo.