Die Chat-Form der GPT-3 API verwendet ein einfaches Modell der Kontinuität: Sie betrachtet die gesamte Konversation als Eingabe für das Modell. Jede Nachricht wird in ein “messages”-Array eingefügt, das entweder aus der Rolle des “Systems”, dem “Benutzer” oder dem “Assistenten” besteht.
Um die Kontinuität zu gewährleisten, fügen Sie einfach weitere Nachrichten zu diesem Array hinzu, wobei die älteste Nachricht zuerst und die neueste Nachricht zuletzt erscheint. Die Modelle verwenden den gesamten Verlauf, um zu entscheiden, was als Antwort generiert werden soll.
Es ist wichtig zu beachten, dass es eine Begrenzung der Token (maximale Beschränkung ist 4096-Token für gpt-3.5-turbo) gibt, was dazu führen kann, dass lange Gespräche abgeschnitten werden, wenn sie diese Grenze überschreiten. Daher sollten redundante oder unwichtige Teile der Konversation entfernt werden, um dies zu verhindern.