Ontdek de Onverwachte Ontdekkingen van een Amateur AI-ontwikkelaar

Een amateur ontwikkelaar heeft een AI-taalmodel ontwikkeld dat spreekt in het Engels van het Victoriaanse tijdperk. Tijdens deze “grapachtige” onderneming leerde hij onverwacht een aantal historische feiten. De nieuwste versie van zijn model verwees naar een protestbeweging die in 1834 daadwerkelijk in Londen plaatsvond. De ontwikkelaar, Hik Grigorian, een student computerwetenschappen aan de Muhlenberg College in Pennsylvania, was zich niet bewust van dit historische feit totdat hij het online ging opzoeken.

Grigorian heeft in de afgelopen maand gewerkt aan een compact AI-taalmodel dat hij “TimeCapsuleLLM” heeft genoemd. Dit model is getraind op teksten die in Londen zijn geschreven tussen 1800 en 1875, met als doel de “echte stem” van het Victoriaanse tijdperk te recreëren. Dit resulteerde in teksten vol Bijbelcitaten en de grote, retorische uitdrukkingen die kenmerkend waren voor die tijd.

Grigorian’s experiment kan worden beschouwd als een deel van de onderzoeksrichting die “historisch grootschalige taalmodellen” (HLLM) wordt genoemd, die mede mogelijk wordt gemaakt door grotere basismodellen. Andere projecten omvatten “MonadGPT”, dat is getraind op 11.000 teksten van 1400 tot 1700, en “XunziALLM”, dat klassieke Chinese poëzie genereert op basis van traditionele ritmische regels.

Onlangs vond Grigorian een bijzonder interessante output van zijn TimeCapsuleLLM tijdens een eenvoudige test. Toen hij het prompt “Het was het jaar van onze Heer 1834” invoerde, genereerde het model een serie zinnen die zijn interesse wekten. Na deze output te hebben gecontroleerd, ontdekte hij dat de AI de naam van Lord Palmerston noemde, wat verband hield met de protestbeweging uit 1834.

De details van de door de AI gegenereerde inhoud leken over het algemeen overeen te komen met historische feiten. In 1834 was Groot-Brittannië in beroering door de Poor Law Amendment Act, die in dat jaar was aangenomen. Palmerston diende als minister van Buitenlandse Zaken in deze turbulente tijd en zou later premier worden.

Toch is deze output niet op zichzelf opschuddingwekkend te noemen. Onderzoekers van AI-taalmodellen zijn zich ervan bewust dat dergelijke modellen patronen uit leerdata halen en deze op een plausibele manier combineren om nieuwe teksten te synthetiseren. De AI-assistenten die we nu gebruiken, zijn allemaal gebaseerd op dit principe.

Wat dit specifieke geval opmerkelijk maakt, is dat een student, die als hobby een klein model heeft getraind, onbewust een herkenbare reconstructie van historische kennis deed. De AI kon fragmenten van informatie verbinden zonder expliciete instructies te ontvangen. Grigorian had niet specifiek documenten over de protestbeweging in 1834 in het model ingevoerd; de AI vond een onderlinge relatie door patronen te herkennen in 6,25 GB aan tekst uit het Victoriaanse tijdperk.

Grigorian speculeert dat als hij de dataset zou uitbreiden naar meer dan 30 GB, het model misschien nog meer interessante resultaten zou kunnen opleveren. Voor hem voelt het als een soort digitale tijdreis. Door het gebruik van alleen documentatie uit de Victoriaanse tijd werd de AI getraind met een unieke aanpak die hij “selectieve tijdsleren” noemt.

Met deze methode is Grigorian erin geslaagd om drie AI-modellen te trainen, waarbij de historisch accurate output geleidelijk werd verbeterd. Terwijl eerdere versies vooral nonsens produceerden, begon de meest recente versie, met 700 miljoen parameters en getraind op een krachtige GPU, steeds betere historische narratieven te genereren.

Dit soort experimenten kan waardevol zijn voor historici en onderzoekers op het gebied van digitale humaniora, omdat ze mogelijk unieke dialogische taalmodellen kunnen creëren. Grigorian heeft plannen om modellen voor andere steden en historische tijdperken te ontwikkelen en zoekt naar samenwerkingspartners voor eventuele toekomstige AI-modellen.

In een tijd waarin AI-gegenereerde fictie steeds gebruikelijker wordt, is het intrigerend dat een model per ongeluk historische feiten kan oproepen – zo’n gelukkige gebeurtenis zou men zelfs een “factcident” kunnen noemen.