ChatGPT est basé sur l’architecture du transformer qui est aussi utilisée dans OpenAI GPT-3. C’est une architecture de réseau neuronal basée sur l’attention, créée pour résoudre des tâches de traitement naturel du langage.
ChatGPT est un modèle de langage pré-entraîné sur de grandes quantités de texte sur Internet. Ensuite, l’apprentissage fin est effectué avec des conversations de dialogue supervisées, avec une combinaison d’apprentissage automatique classique et d’itération équilibrée.
La taille précise du modèle ayant des variantes selon les versions, GPT-3, sur lequel ChatGPT est basé, a 175 milliards de paramètres.