Met de opkomst van generatieve kunstmatige intelligentie (AI) als een belangrijk instrument voor het vinden van informatie, loopt lokale en traditionele wijsheid het risico te verdwijnen. We beginnen pas te beseffen hoe groot wat we zouden kunnen verliezen is.
Experts waarschuwen dat de toenemende afhankelijkheid van generatieve AI-modellen, getraind op massale datasets die grotendeels uit westerse en Engelse bronnen bestaan, kan leiden tot een fenomeen dat ‘kennisinstorting’ wordt genoemd. Dit houdt in dat de beschikbare kennisbasis voor het publiek geleidelijk wordt versmald, terwijl gemarginaliseerde perspectieven en kennisystemen worden uitgesloten uit het digitale ecosysteem.
Grote taalmodellen (LLM), die de basis vormen van generatieve AI-tools, zijn gevoed met teksten uit boeken, artikelen en websites. Echter, deze ‘digitale trainingsset’ vertegenwoordigt niet de volledige som van menselijke kennis. Mondelinge culturen, talloze talen en hele systemen van praktische wijsheid zijn ernstig onderbelicht.
Data van Common Crawl, een van de grootste openbare gegevensbronnen voor AI-training, illustreren dit onevenwicht: terwijl Engels 45% van de inhoud uitmaakt, vertegenwoordigt het Hindi, de derde meest gesproken taal ter wereld, slechts 0,2%. De situatie is zelfs nog ernstiger voor veel andere talen.
Ongeveer 97% van de talen ter wereld worden door computers als ‘arme bronnen’ geclassificeerd. Veel van deze talen bezitten rijke linguïstische en culturele erfenissen, die unieke kennis over lokale ecosystemen, medicinale planten of traditionele bouwtechnieken bevatten. Het probleem is niet dat deze kennis niet bestaat, maar dat deze niet gedigitaliseerd is in een formaat dat toegankelijk is voor AI.
Het probleem wordt verergerd door de manier waarop AI functioneert. Vanwege het ontwerp hebben taalmodellen de neiging om ideeën en perspectieven die al statistisch dominant zijn in de trainingsdata te reproduceren en te versterken, een fenomeen dat bekend staat als ‘bias-amplificatie’.
Als een bepaald concept of perspectief vaker voorkomt in de data, zal AI dit presenteren als meer representatief, waardoor alternatieve opvattingen verder worden gemarginaliseerd. Dit proces wordt versterkt door de zogenaamde ‘versterking door menselijke feedback’ (RLHF), waarbij modellen worden verfijnd om zich aan te passen aan menselijke voorkeuren die op hun beurt vaak worden beïnvloed door specifieke culturele waarden en normen.
Een extra gevaar, geïdentificeerd door onderzoekers, is het ontstaan van een negatieve feedbackloop. Naarmate de door AI gegenereerde inhoud het internet overstroomt, wordt deze op haar beurt een trainingsbron voor toekomstige generaties AI-modellen. Dit kan een soort kennisinstorting creëren, waarbij dominante ideeën continu worden versterkt, terwijl niche- of lokale kennis steeds moeilijker te vinden is en uiteindelijk vergeten wordt.
Het verlies van deze kennisystemen is niet alleen een cultureel of academisch probleem. Het heeft diepgaande praktische implicaties voor mondiale uitdagingen zoals de klimaatcrisis of het beheer van hulpbronnen. Traditionele systemen voor het beheer van water, kennis van lokale droogte-resistente planten of bouwtechnieken die zijn aangepast aan de omgeving zijn schatten van praktische wijsheid die cruciaal kunnen zijn voor aanpassing aan klimaatverandering.
Wanneer een kennisysteem verdwijnt, is het alsof je een hele bibliotheek verliest. We weten niet welke waardevolle oplossingen we kunnen verliezen, oplossingen die door de eeuwen heen zijn verfijnd om zich aan te passen aan specifieke omgevingen. De oplossing ligt niet in het verwerpen van technologie, maar in het bewustzijn van haar beperkingen en het proactief handelen om deze inclusiever te maken.
Dit vereist gecoördineerde inspanningen om deze unieke kenniscorpora te digitaliseren en op te nemen in trainingsdatasets, evenals de ontwikkeling van AI-modellen die in staat zijn om verschillende manieren van kennis over de wereld te waarderen en te integreren. Bij afwezigheid van deze inspanningen lopen we het risico om in een tijdperk van cognitieve homogenisering te belanden, waarbij het antwoord op elke vraag steeds meer gestandaardiseerd zal zijn, reflecterend een smalle visie op de wereld, terwijl de rijkdom van de diversiteit van menselijke kennis geleidelijk vervaagt.







