De `openai.ChatCompletion.create()` methode accepteert een parameter `max_tokens`. Dit is belangrijk omdat je betaalt op basis van het aantal tokens dat is gebruikt, en langere gesprekken zullen dus meer kosten. Daarnaast moet je ook rekening houden met het maximale tokenlimiet van het model. Voor gpt-3.5-turbo is dit bijvoorbeeld 4096 tokens.
Als het aantal tokens in jouw berichten plus het geobserveerde aantal tokens de limiet overschrijdt, moet je berichten inkorten of verwijderen totdat het binnen de limiet past.
Bovendien, OpenAI kan geen garanties bieden over hoeveel tokens nodig zijn om een bepaalde respons te genereren, omdat dit afhangt van de specifieke input en instructies.
Ook kan de tijd om een voltooing te berekenen variëren, maar over het algemeen duurt dit evenredig met het aantal tokens in de berichten in je chat.
Als je een bepaalde reactietijd nodig hebt, kan je een timeout instellen (bijvoorbeeld 30 seconden) via de `timeout` parameter op API-niveau.
Als je API-oproep de timeout overschrijdt (dit wordt gemeten vanaf het moment dat onze API je verzoek ontvangt tot wanneer het antwoord volledig is teruggestuurd naar je app), krijg je een error “Timeout”.
Hier is een voorbeeld hoe je de `timeout` parameter zou instellen met Python:
```
openai.ChatCompletion.create(
model=“gpt-3.5-turbo”,
messages=messages,
options={“timeout”: 30}
)
```