ChatGPT, un modello di linguaggio sviluppato da OpenAI, non possiede una “memoria a lungo termine” nel senso tradizionale. Piuttosto, ChatGPT funziona attraverso l’elaborazione di una sequenza di input, generando output basandosi sull’informazione immediatamente presente. Non salva o ricorda informazioni da una sessione del chat alla successiva.
È importante sottolineare che l’addestramento di ChatGPT si basa su un vasto corpus di testo da Internet. Tuttavia, non ha la capacità di accedere o di ricordare specificamente queste informazioni. Non può, per esempio, ricordare un particolare libro o articolo utilizzato durante l’addestramento. Invece, il modello apprende una rappresentazione statistica del linguaggio attraverso gli esempi che gli vengono forniti.
La ‘memoria’ di ChatGPT dura per circa 2048 token di conversazione. Un token è un pezzo di testo che può variare in lunghezza – può essere lungo una singola lettera o una parola intera. Dopo i 2048 token, inizia a ‘dimenticare’ le vecchie parti della conversazione. Questo è spesso riferito come il “window size” del modello. Oltre questa dimensione, il modello non ha accesso alle informazioni precedenti.
I modelli GPT-3, come ChatGPT, sono costituiti da milioni o addirittura miliardi di parametri addestrabili. Questi parametri formano una sorta di memoria a lungo termine perché contengono l’apprendimento del modello dal suo addestramento su un vasto corpus di testi. Tuttavia, è diverso dalla memoria umana in quanto non salva niente in termini di contesto specifico e non retiene informazioni tra le sessioni dell’utente.
In conclusione, mentre ChatGPT ha una ‘memoria’ di circa 2048 token all’interno di una singola conversazione, non ha la capacità di memorizzare informazioni nel lungo termine tra le interazioni con gli utenti o le sessioni.
Riferimenti:
1. OpenAI (2020). D4.3.1 ChatGPT. Rilevato da: https://platform.openai.com/docs/guides/chat.
2. Radford, et al. (2019). Language Models are Few-Shot Learners. Rilevato da: https://arxiv.org/abs/2005.14165.
3. Brown, et al. (2020). GPT-3: Language Models are Few-Shot Learners. Rilevato da: https://arxiv.org/abs/2005.14165.