La knowledge base di ChatGPT viene aggiornata tramite un processo che include due step principali: pre-training e fine-tuning.
Nel pre-training, ChatGPT viene esposto a una vasta gamma di internet testi, imparando le informazioni contenute in essi. Cependant, poiché il modello non viene aggiornato in tempo reale con nuovi dati da internet, il suo pre-win base teoricamente fino all’ultimo data set di addestramento, che per GPT-3 è la fine del 2021.
Nel fine-tuning, il modello viene poi addestrato su un set più piccolo e specifico di dati, che può includere esempi di conversazioni generate da revisori umani. Questo processo consente al modello di adattarsi meglio a specifiche attività o argomenti.
Va sottolineato che anche se ChatGPT ha accesso a una grande quantità di informazioni, non “sa” da dove proviene specificamente una determinata informazione. Ad esempio, non ha la capacità di accedere o recuperare informazioni da database specifici o siti web in tempo reale, e non può attribuire informazioni a specifiche fonti.