ChatGPT fue formado a través de un proceso de dos pasos que incluyen el preentrenamiento y el ajuste fino.
Durante el preentrenamiento, ChatGPT aprendió a predecir la siguiente palabra en una oración usando una variedad de datos de Internet. Sin embargo, OpenAI, la compañía detrás de ChatGPT, no selecciona ni conoce específicamente los documentos utilizados en este entrenamiento. Este proceso permitió al modelo aprender gramática, hechos sobre el mundo e incluso recoger ciertos sesgos en los datos.
El segundo paso, el ajuste fino, se realiza en un conjunto de datos curado por OpenAI que incluye conversaciones entre pares de revisores que juegan ambos roles, el de usuario y el de asistente inteligente. Este conjunto de datos también incluye retroalimentación de estos revisores para mejorar la precisión y coherencia del modelo.
Además, ChatGPT ha sido entrenado con varias versiones y mejoras a lo largo del tiempo, mediante la recopilación de feedback de los usuarios para refinar su rendimiento.