Come filtrare il contenuto generato dall'API ChatGPT?

OpenAI consente di aggiungere un livello di filtro del contenuto post-elaborazione al testo generato da ChatGPT. Gli sviluppatori possono creare un filtro di moderazione per rifiutare i messaggi che contengono contenuti inappropriati o sensibili.

Per implementare questo, è possibile iterare attraverso il token l’output del messaggio di risposta di modello e controllare se qualsiasi parola o frase coincide con gli elementi in una lista di termini proibiti o indesiderati. Se si identifica una corrispondenza, il messaggio può essere rifiutato o modificato.

Tuttavia, si consiglia di fare attenzione con questo tipo di filtraggio, in quanto potrebbe causare falsi positivi (bloccare contenuti innocui) o falsi negativi (perdere contenuti indesiderati).

Notate che OpenAI recentemente ha reso disponibile un nuovo filtro di moderazione del contenuto. Questo filtro, che si trova nel modello ‘contentFilter’, tenta di bloccare i contenuti di risposta che ritiene offensivi, inappropriati o non sicuri. È importante notare che questo filtro non è perfetto e può avere sia falsi positivi che falsi negativi.