L’accuratezza di ChatGPT viene testata utilizzando una combinazione di valutazioni umane e test automatici. Nel caso delle valutazioni umane, vengono chiesti ai revisori di valutare vari aspetti dell’output del modello, come la pertinenza della risposta, il rispetto delle linee guida e il tono utilizzato. Queste valutazioni aiutano a rilevare eventuali problemi o aree in cui il modello potrebbe avere bisogno di ulteriore addestramento.
I test automatici, d’altra parte, includono tecniche come la valutazione della perdita di cross-entropy, che misura quanto bene il modello è in grado di prevedere il prossimo token in una sequenza di testo. Questi test forniscono una misura quantitativa dell’accuratezza del modello.