Uw gegevens. Uw keuze.

We gebruiken cookies en soortgelijke technologieën om je de beste winkelervaring te bieden en voor marketingdoeleinden. Accepteer, weiger of beheer het gebruik van je informatie.

Nieuws en trends

Kunstmatige intelligentie: taalmodellen vormen analogieën zoals mensen

Spektrum der Wissenschaft
6/8/2023
Vertaling: machinaal vertaald

Het vermogen om in analogieën te denken is essentieel voor de menselijke intelligentie en creativiteit. Een trio onderzoekers van de Universiteit van Californië heeft het vermogen van GPT-3 om nieuwe problemen bij de eerste poging op te lossen onderzocht.

Van het oplossen van complexe problemen in het dagelijks leven tot creatief werk en wetenschappelijke uitvindingen, mensen gebruiken het vermogen om logische conclusies te trekken uit overeenkomsten. Experts noemen dit ook wel "analoog redeneren". Cognitief psycholoog en dichter Keith James Holyoak, cognitief psycholoog Hongjing Lu en hersen- en AI-onderzoeker Taylor Webb van de Universiteit van Californië in Los Angeles (UCLA) wilden erachter komen of machines, net als mensen, in staat zijn om taken en problemen op te lossen die ze nog nooit eerder zijn tegengekomen.

Daartoe confronteerden de onderzoekers het AI-taalmodel GPT-3, dat vooral bekend is van de chatbot ChatGPT, met taken waarbij het analogieën moest vormen en vergeleken zijn vaardigheden met die van menselijke proefpersonen. Het team ontdekte dat het taalmodel een niveau bereikte dat de prestaties van de menselijke testdeelnemers evenaarde of zelfs overtrof. Dit wordt nu gerapporteerd in het tijdschrift "Nature Human Behaviour".

Voor hun testserie gebruikten de onderzoekers de tekst-davinci003 variant van het Generative Pre-trained Transformer (GPT) model. Mensen en machines moesten getalmatrices afronden ("matrix redeneren"), letterreeksen afronden volgens het gelijkenisprincipe ("letterreeks analogieën") en letterlijke analoge conclusies trekken. In deze drie taakblokken was het taalmodel iets beter dan de menselijke testkandidaten. "GPT-3 presteerde beter dan de menselijke proefpersonen in het onderzoek en vertoonde specifiek op mensen lijkende gedragskenmerken in alle taaktypen," aldus het artikel.

Een totaal van 57 UCLA-studenten nam deel aan de testserie voor de vergelijking. Als basis werden problemen gebruikt waar noch de menselijke testdeelnemers noch de machine van tevoren mee in aanraking hadden kunnen komen, omdat ze speciaal voor het onderzoek waren ontwikkeld. Bij het invullen van nummer- en patroonmatrices haalde GPT-3 een nauwkeurigheid van 80 procent, terwijl de menselijke testpersonen gemiddeld net onder de 60 procent bleven. Bij het invullen van rijen letters zaten mens en machine bijna op één lijn, waarbij GPT-3 een licht voordeel had, terwijl het taalmodel een nauwkeurigheid van rond de 50 procent behaalde.

Menselijke vaardigheden waren zeer breed verspreid

De deelnemers presteerden individueel gezien echter heel verschillend: terwijl sommigen helemaal niet in staat waren om de taken op te lossen, behaalden anderen een nauwkeurigheid van 90 procent. De gemiddelde waarde van alle testdeelnemers trok het totale resultaat echter naar beneden tot een nauwkeurigheid van slechts 80 procent vergeleken met de ongeveer procent nauwkeurigheid van GPT-3, omdat 25 testdeelnemers resultaten behaalden die in sommige gevallen aanzienlijk onder de machineprestaties lagen. In het vierde taakblok, waarin een verhaal werd gepresenteerd en het analoge verhaal moest worden geselecteerd uit twee vergelijkbare verhalen, behaalde een groot deel van de studenten een perfecte nauwkeurigheid. De gemiddelde score van alle menselijke proefpersonen lag duidelijk boven GPT-3: het AI-systeem behaalde ongeveer procent nauwkeurigheid in het verhaalblok, terwijl de gemiddelde score van alle geteste studenten meer dan 80 procent was. Blijkbaar was de machine niet in staat om het causale verband te herkennen.

De opgaven waren allemaal in tekstvorm of werden, in het geval van de op getallen gebaseerde matrices, ingeleid door een tekstprompt. Deze laatste waren sterk gemodelleerd naar de bekendere progressieve matrices die John C. Raven in 1936 ontwikkelde. Dit taalloze type matrix wordt gebruikt om algemene menselijke intelligentie te meten, bijvoorbeeld als het gaat om het categoriseren van abstract denkvermogen. Raven's Progressive Matrices (RPM) worden gebruikt in klassieke intelligentietests voor mensen van vijf jaar tot op hoge leeftijd. De testset bestaat uit 60 meerkeuzevragen in oplopende moeilijkheidsgraden. Er worden zes mogelijke toevoegingen gegeven voor een reeks getallen, waaruit de respondenten kunnen kiezen.

Beperkingen aan de mogelijkheden van GPT-3

De onderzoekers merken echter op dat er enkele beperkingen zijn met betrekking tot de daadwerkelijke mogelijkheden van het taalmodel: GPT-3 is bijvoorbeeld niet in staat om menselijk analoog gedrag op alle gebieden na te bootsen. Het puur op tekst gebaseerde model mist bijvoorbeeld de fysieke ervaring in de wereld die mensen in staat stelt om te leren van ongelukken en fouten en nieuwe conclusies te trekken. Volgens de onderzoekers was een andere belangrijke bevinding dat GPT-3 slechts in beperkte mate in staat is om analogieën op basis van causale relaties te beoordelen. Dit is echter belangrijk voor het detecteren van verre overeenkomsten bij het vergelijken van verschillende verhalen.

De testen waren ook beperkt tot processen die binnen een beheersbare, lokaal beperkte tijdshorizon konden worden uitgevoerd. Mensen daarentegen zijn in staat om te putten uit nuttige bronnen uit hun langetermijngeheugen en nieuwe concepten te ontwikkelen op basis van een groot aantal individuele analogieën. In tegenstelling tot mensen heeft GPT-3 echter geen langetermijngeheugen voor specifieke incidenten. Dit beperkt zijn vermogen om nuttige overeenkomsten met een bestaand probleem te herkennen. De grootte van het zogenaamde contextvenster speelt hierbij een rol: het contextvenster is een buffer die bepaalt hoeveel tekst in context kan worden verwerkt. Hoe langer de samenhangende tekstpassages die een groot taalmodel kan verwerken, hoe langere "gedachteketens" het kan vormen en hoe dieper het theoretisch in zijn geheugen zou kunnen "rommelen" om geschikte analogieën te vinden.

Nieuwere taalmodellen hebben een groter «langetermijngeheugen» dan GPT-3

Nieuwere taalmodellen hebben soms een veel grotere contextbuffer dan GPT-3, die dateert uit 2019. Terwijl GPT-3 slechts toegang heeft tot ongeveer 2048 tokens (dat wil zeggen ongeveer 2000 woorden in het Engels en aanzienlijk minder in het Duits), heeft GPT-4 al een contextbuffer van 32.000 tokens (tot 32.000 woorden in het Engels). Het Claude-model van Anthropic heeft toegang tot meer dan 100.000 tokens en naar verwachting kan de nieuwe Claude 2 binnen afzienbare tijd 200.000 tokens verwerken zonder context te verliezen, d.w.z. de omvang van hele boeken.

Tijdens de onderzoeksperiode waren de nieuwere modellen echter nog niet beschikbaar. Toen de onderzoekers hun werk in december 2022 bij Nature indienden, was ChatGPT net gepubliceerd en GPT-4 was nog ver weg. Daardoor kon er geen rekening worden gehouden met de nieuwste ontwikkelingen, die de laatste tijd flink in een stroomversnelling zijn geraakt. De uitspraken van de wetenschappers in het artikel over de vergeetachtigheid van het geanalyseerde taalmodel moeten daarom in dit stadium met voorbehoud worden bekeken. Terloops gaan de auteurs van het artikel in op het probleem zelf en vermelden in een later toegevoegde bijlage dat een rudimentaire test met GPT-4 liet zien dat dit systeem aanzienlijk betere resultaten leverde dan GPT-3. De conclusie van de onderzoeksgroep is dan ook duidelijk: "Onze resultaten geven aan dat grote taalmodellen zoals GPT-3 het vermogen beginnen te tonen om direct en zonder voorafgaande contactpunten oplossingen te vinden voor een breed scala aan analogieproblemen."

Spectrum van de wetenschap

Wij zijn partner van Spektrum der Wissenschaft en willen gefundeerde informatie toegankelijker voor je maken. Volg Spektrum der Wissenschaft als je de artikelen leuk vindt.

[[small:]]


Coverafbeelding: Shutterstock / Peshkova

16 mensen vinden dit artikel leuk


User Avatar
User Avatar

Deskundigen uit wetenschap en onderzoek doen verslag van de huidige bevindingen op hun gebied - deskundig, authentiek en begrijpelijk.


Nieuws en trends

Van de nieuwe iPhone tot de wederopstanding van de mode uit de jaren 80. De redactie categoriseert.

Alles tonen

1 commentaar

Avatar
later