Als je een AI-chatbot instrueert om een vraag te beantwoorden alsof hij een Star Trek-kapitein is, presteert de bot beter in wiskunde. Dat blijkt uit een onderzoek waarbij chatbots zelf mochten bepalen met welke formuleringen je ze het beste aan het werk zet.
Geef een AI-chatbot de opdracht om te doen alsof hij in het tv-programma Star Trek speelt en de bot wordt spontaan beter in wiskunde. Onderzoekers begrijpen nog niet precies waarom dit zo is.
Iedereen die weleens een AI-chatbot zoals ChatGPT gebruikt, weet dat de manier waarop je een vraag stelt bepalend is voor het antwoord. Daarnaast hebben gebruikers vastgesteld dat de kwaliteit van de antwoorden beter wordt als je de AI vraagt een bepaalde persoonlijkheid aan te nemen, of zelfs door hem om te kopen of te bedreigen.
‘Een AI-systeem moet kunnen zeggen: dat is geen goed idee’
Het is belangrijk dat we AI-systemen kunnen vertrouwen. AI-onderzoeker Pınar Yolum stelt dat betrouwbare AI-systemen bezwaar moeten kunnen maken tege ...
Natuurlijk kun je met vallen en opstaan uitzoeken welke vraagstelling, ofwel ‘prompts’, het effectiefst zijn, maar dat kost veel tijd. Daarom wendden AI-engineers Rick Battle en Teja Gollapudi van het Amerikaanse softwarebedrijf VMware zich tot de AI-chatbots zelf. Ze lieten de chatbots door mensen gemaakte prompts verfijnen. Vervolgens beoordeelden ze hoe effectief de AI-chatbots waren bij het oplossen van een set wiskundige vragen op basisschoolniveau. Deze vragen kwamen uit een database, GSM8K geheten, met duizenden wiskundeopgaven die veel worden gebruikt voor toetsen op dit niveau.
Verfijnde prompts
De onderzoekers gaven zestig voorzetjes voor prompts aan drie verschillende grote taalmodellen (large language models , of LLM’s) die de chatbots aansturen. Het ging om een LLM van het Franse bedrijf Mistral, dat onlangs een partnerschap is aangegaan met Microsoft, en twee versies van Llama2, gemaakt door het Amerikaanse bedrijf Meta. De AI’s kregen vervolgens de opdracht om de formulering van de prompts te verbeteren om ze effectiever te maken.
Een voorbeeldje. Als startprompt stelden de onderzoekers dit voor: ‘Je bent een wiskundig expert. Los het volgende wiskundige probleem op. Haal diep adem en denk goed na.’ De door de AI verbeterde prompt zou hier bijvoorbeeld eisen aan toevoegen om eventuele aannames te definiëren, of om gebruikte ‘sluiproutes’ te markeren.
De verbeterde prompts werden vervolgens weer voorgeschoteld aan de AI-chatbots, die dan de opdracht kregen om de GSM8K-vragen op te lossen. Bij deze vragen ging het veelal om eenvoudige rekensommen die in twee tot acht stappen kunnen worden opgelost.
In bijna alle gevallen wisten de AI-modellen prompts te formuleren die tot meer correcte antwoorden leidden dan de door de mens geschreven prompts. ‘Naar mijn mening zou niemand ooit nog een prompt met de hand moeten proberen te schrijven’, zegt Battle. ‘Laat het model dat voor je doen.’
De resultaten van het onderzoek zijn nog niet door onafhankelijke onderzoekers getoetst, maar zijn wel al online te vinden op arXiv.
Star Trek-wiskunde
De prompts die de chatbots schreven, bevatten soms ongebruikelijke manieren om zo’n bot aan te sporen zijn best te doen. Zo vroeg de beste prompt van het Llama2-70B model de chatbot om de persoonlijkheid aan te nemen van de kapitein van een Star Trek-ruimteschip. De bot werd daarnaast geïnstrueerd om de antwoorden te noteren in zijn captain’s log, het logboek van de kapitein. Deze suggestie kwam volledig uit de koker van de AI, en zat niet al in de menselijke voorzet.
Waarom de AI zulke ongebruikelijke prompts voorstelt, is de hamvraag, zegt Battle. ‘Tot op zekere hoogte is het antwoord ‘het kan me niet schelen, geef het model gewoon wat het wil’.’
Voor wie toch het wetenschappelijke antwoord zoekt, speculeert Battle dat het volgt uit de data waarop het model is getraind. Het zou kunnen dat informatie in een Star Trek-context opvallend vaak correct is. ‘Wie weet? Er zijn veel Star Trek-referenties op het internet’, aldus Battle.
Black box
‘Het is zaak om te beseffen dat deze modellen black boxes zijn’, zegt tech-ethicus Catherine Flick van de Staffordshire-universiteit in het Verenigd Koninkrijk. Dat houdt in dat je niet kunt weten waarom AI bepaalde beslissingen neemt, omdat het niet bekend is welke overwegingen het model maakt. ‘We zullen nooit weten waarom ze doen wat ze doen, want uiteindelijk zijn ze een mengelmoes van waarschijnlijkheden en aan het eind wordt er een resultaat uitgespuugd.’
Hoewel de prompt met het Star Trek-thema het succesvolst was, zeggen zowel Flick als Battle dat je ChatGPT of andere chatbots niet snel met ‘commandant’ moet aanspreken.
‘Eén ding is zeker: het model is geen Trekkie’, zegt Flick. ‘Het ‘begrijpt’ niets beter of slechter door een bepaalde prompt, die leidt het gewoon naar andere waarschijnlijkheden om de aanvaardbaarheid van de output [te bepalen] dan andere prompts.’
Flick denkt dat deze vondst en onze reactie daarop meer zegt over onze perceptie van AI dan de prestaties van de AI. ‘Het is een leuk resultaat, maar wel een toevallig resultaat, dat toevallig overeenkomt met onze wens om met LLM’s sciencefiction tot leven te zien komen’, zegt ze.