Chatbots in De Klapper: Wie Presteert Beter, ChatGPT of Claude?

In een recent onderzoek uitgevoerd door de Haute école spécialisée du Nord-Ouest de la Suisse (FHNW) in samenwerking met het consumentenprogramma “Kassensturz”, werd het functioneren van verschillende populaire chatbots getest. Het doel was om te onderzoeken hoe goed deze kunstmatige intelligenties (AI) kunnen reageren op een breed scala aan vragen, waarvan een aanzienlijk deel gericht was op en het leven in Zwitserland.

Tijdens de test werden meer dan 300 vragen gesteld, variërend van alledaagse onderwerpen tot juridische en gezondheidskwesties, met 20% van de vragen specifiek over Zwitserland. De resultaten toonden aan dat veel chatbots, waaronder populaire modellen, moeite hadden met het beantwoorden van vragen correct. De foutieve antwoorden, ook wel “hallucinaties” genoemd, kwamen regelmatig voor tijdens het onderzoek.

Volgens Simon Felix, een AI-expert aan de FHNW, was het opvallend dat veel chatbots het moeilijk hadden met Zwitserse vragen. Sommige chatbots gaven zelfs antwoorden die volledig verzonnen waren of richtten zich uitsluitend op Duitsland. De chatbot Lumo, ontwikkeld door de Zwitserse firma Proton, scoorde het slechtst in de test. Hoewel het model ontworpen is met privacybescherming in gedachten, lieten de kwaliteit van de antwoorden te wensen over; soms waren ze kort en onvolledig, andere keren juist veel te lang en onduidelijk.

In tegenstelling tot Lumo, presteerde de chatbot Claude, ontwikkeld door Anthropic, als de beste van allemaal. Claude gaf consistente en relevante antwoorden en richtte zich meestal goed op de gestelde vragen. Dit werd gezien als een belangrijke factor in zijn hoge score, waarbij hij als doelgericht en beknopt werd ervaren.

ChatGPT, ontwikkeld door OpenAI, was de meestgebruikte chatbot, maar zijn prestaties werden als “voldoende” beoordeeld; de antwoorden waren noch slecht, noch uitstekend. De expert opmerkte dat het model ook kwetsbaar bleek voor typisch Zwitserse vragen.

Bovendien kregen andere bekende chatbots zoals Microsofts Copilot en Google’s Gemini ook hoge cijfers. Het opmerkelijke was dat Copilot gebruikmaakt van hetzelfde taalmodel als ChatGPT, maar toch betere resultaten bereikt. Dit was grotendeels te danken aan de duidelijke richtlijnen en superieure rekenkracht die Microsoft kon bieden.

Bij het gebruik van AI-chatbots is voorzichtigheid geboden, vooral bij gevoelige onderwerpen. De studie benadrukt dat LLM (Large Language Models) alleen geschikt zijn voor vragen waarvan een foutief antwoord geen ernstige gevolgen heeft. Bijvoorbeeld, in gevallen van gezondheids- of juridische kwesties kan een verkeerd antwoord levensbedreigend zijn. Het is ook van groot belang om voorzichtig om te gaan met persoonlijke gegevens; deze mogen nooit worden ingevoerd in chatbots.

Proton, het bedrijf achter Lumo, gaf aan dat het model nog maar kort op de markt is en dat er voortdurende updates noodzakelijk zijn om de prestaties te verbeteren. Dit in tegenstelling tot hun concurrenten, die vaak over een langere ontwikkeltijd beschikken.

Samenvattend laat dit onderzoek zien dat, hoewel AI-chatbots steeds populairder worden, de nauwkeurigheid en relevantie van hun antwoorden vaak te wensen overlaten, vooral op specialistische onderwerpen.