OpenAI gebruikt een proces genaamd ‘reinforcement learning from human feedback’ (RLHF) om het model op te leiden. Een belangrijke stap tijdens deze training is de ‘fine-tuning’, waarbij ze het model kunnen aanpassen om bepaalde output te genereren die geschikt is in overeenstemming met de gestelde richtlijnen.
Je kan ervoor zorgen dat ChatGPT bedrijfsregels respecteert door duidelijke richtlijnen te geven tijdens de fine-tuning fase om bepaald gedrag te promoten of te ontmoedigen. Echter, ChatGPT is niet perfect en kan nog steeds fouten maken of onvoorspelbaar gedrag vertonen. Het is daarom aangeraden om constant te testen en te monitoren om ervoor te zorgen dat het model consistent de regels volgt.
Bij problematisch gedrag kan OpenAI de technologie steeds verder verbeteren via herhaaldelijke trainingen en updates om het model beter af te stemmen op specifieke behoeften. In toekomstige versies van de modellen gaat OpenAI ook proberen in te bouwen dat individuele gebruikers en organisaties de AI’s systeemwaarden verder kunnen aanpassen of personaliseren binnen bepaalde limieten.