ChatGPT aprendió a generar texto mediante un proceso en dos etapas: pre-entrenamiento y afinado.
El pre-entrenamiento implicó empapar chatGPT en una gama de datos de Internet, pero no se le proporcionó ninguna información específica, es decir, no sabe de qué documentos exactamente aprendió. En esta etapa el modelo aprende a predecir la siguiente palabra en una oración dado el contexto anterior.
Después del pre-entrenamiento, se realza el aprendizaje en un conjunto de tareas específicas de expresión de lenguaje natural. Esta última etapa, denominada afinado, utiliza ejemplos de diálogos generados por operadores humanos con roles tanto de usuario como del asistente. El modelo también recibe retroalimentación para mejorar sus respuestas.
El algoritmo subyacente utiliza una técnica de aprendizaje profundo conocida como “Transformador” para hacer sus predicciones. No se le proporcionó ninguna instrucción explícita sobre la generación del lenguaje, sino que simplemente identifica patrones y hace inferencias basadas en la gran cantidad de datos con los que fue entrenado.