
Achtergrond
Van sprookjesland naar horrorscenario in een flits met "DALL-E" beeld-AI
van Michelle Brändle
Terwijl AI-modellen zoals ChatGPT reageren op teksten of afbeeldingen maken van teksten zoals MidJourney, pakt MiniGPT-4 het anders aan. Het creëert teksten uit afbeeldingen.
OpenAI presenteerde GPT-4 in maart 2023, waarop ook ChatGPT is gebaseerd. Het is een multimodaal model dat meer aankan dan alleen tekst. De functie voor het uploaden van afbeeldingen om teksten te maken is nog niet beschikbaar. Om het potentieel van de tool te testen, heeft een onderzoeksgroep een kleinere versie van het programma met deze afbeeldingsfunctie gemaakt: MiniGPT-4.
MiniGPT-4 vult momenteel een leemte, omdat andere taalmodellen (LLM) nog geen afbeeldingen verwerken. Wat dat betreft laat het programma al zien wat er mogelijk is als chatbots ook kunnen "zien". En dat is heel wat: MiniGPT-4 maakt een gedicht van een geüploade afbeelding, kan HTML-codes maken van schetsen voor een website en weet wat er mis is met je zieke plant. Je kunt het programma momenteel uitproberen. Ik kon de kans niet voorbij laten gaan en was geamuseerd door de resultaten.
Het programma werkt eenvoudig: je uploadt een afbeelding en schrijft in korte woorden wat je wilt dat MiniGPT-4 ermee doet. In een demovideo kun je zien wat er allemaal mogelijk is. Het programma geeft je bijvoorbeeld tips over hoe je een zieke plant weer gezond kunt maken. En het maakt een gedetailleerde beschrijving van een kunstwerk voor je.
Ik kan me al voorstellen dat ik wil weten welke bloemen ik tegenkom als ik aan het wandelen ben. En MiniGPT-4 vertelt me dan of ik ze kan gebruiken voor mijn volgende koude thee of dat ik mezelf gewoon zou vergiftigen ...
Maar ik begin met iets onschuldigers. Aan de hand van een foto van mijn lievelingsgerecht, Pad Thai, wil ik het recept voor je uitspugen.
De chatbot begrijpt en reageert in het Engels. Daarom heb ik die passages in het Duits vertaald.
Ik neem een foto van het noedelgerecht en schrijf:
Wat is het recept voor dit gerecht?
Het antwoord van MiniGPT-4 is kort en krachtig, maar niet zoals ik had gehoopt:
Dit gerecht lijkt een roerbakgerecht te zijn met kip, noedels en limoen. Het is waarschijnlijk gemaakt met een combinatie van ingrediënten zoals kip, noedels en limoen. Het gerecht kan ook worden geserveerd met een bijgerecht van rijst of een ander zetmeel. Het is waarschijnlijk een populair gerecht in Zuidoost-Azië
MiniGPT-4 formuleert heel zorgvuldig. Maar niet precies waar ik op hoopte. Ik kan direct op het gesprek inhaken en specifieker zijn:
Hoe bereid ik het?
En beloond worden met een recept (met de nadruk op een recept):
Je hebt de volgende ingrediënten nodig voor dit gerecht:
Instructies:
Goed. Op de een of andere manier een beetje half af en niet helemaal goed. Boter hoort niet echt in het recept. Ik mis tamarindepasta. En ei. Dus ik zou het (voorlopig) niet nog een keer koken, maar het komt aardig in de buurt. En op basis van een foto. Nu al behoorlijk indrukwekkend.
Het programma kan ook liedregels en gedichten schrijven op basis van een foto. Ik neem een foto die ik zelf heb geschilderd en laat het programma er een paar romantische regels van maken. Ik instrueer MiniGPT-4:
Creëer een gedicht voor mij op basis van deze afbeelding
Het resultaat:
Het meisje met blauw haar en koptelefoon
Is omringd door bubbels in de lucht
Ze luistert naar muziek op haar telefoon
Met een koptelefoon op is ze in haar eigen hol
Het blauw-witte dambordpatroon
Creëert een leuke en speelse sfeer
Het meisje met blauw haar en koptelefoon
Is omringd door bubbels in de lucht
Ze luistert naar muziek op haar telefoon
Met een koptelefoon op is ze in haar eigen hol
Ik glimlach. Het gedicht is in twee minuten geschreven. Het is spannend wat MiniGPT-4 kan voorlezen. Maar het programma is waarschijnlijk nog geen partij voor Goethe.
Ik hou van rockmuziek. Bijvoorbeeld de Foo Fighters. Maar ik ben altijd heel slecht met namen. Afgezien van Dave Grohl en zijn overleden drummer Taylor Hawkins, heb ik geen idee hoe de bandleden heten. Een gevalletje voor detective MiniGPT-4: ik upload een bandfoto, vraag naar hun namen en laat het programma de rekensom maken.
Ik vraag eerst wie ze zijn op de foto en MiniGPT-4 herkent ze meteen als de band Foo Fighters. Na verdere vragen noemt het programma daadwerkelijk alle leden. Waarschijnlijk komt dit meer door voorkennis over wie er lid zijn van de Foo Fighters, want de volgorde van hun namen komt niet overeen met de foto.
De antwoorden zijn niet altijd perfect, maar zeker indrukwekkend.
Mijn hoofd loopt over van de ideeën. Kan MiniGPT-4 misschien ook uitvinden wat voor cake ik zou kunnen bakken van ingrediënten uit mijn voorraadkast? Of weet het spannende weetjes over kunstwerken die ik in het museum ontdek? Of ...
Ik weet zeker dat je zelf ook ideeën hebt. Laat me in de comments weten wat je aan MiniGPT-4 hebt gevraagd en of je blij bent met de resultaten.
In mijn wereld achtervolgt Super Mario Stormtroopers met een eenhoorn en mixt Harley Quinn cocktails voor Eddie en Peter in de strandbar. Overal waar ik mijn creativiteit kan uitleven, tintelen mijn vingers. Of misschien komt het omdat er niets anders door mijn aderen stroomt dan chocolade, glitter en koffie.
Interessante feiten uit de wereld van producten, een kijkje achter de schermen van fabrikanten en portretten van interessante mensen.
Alles tonenAchtergrond
van Michelle Brändle
Achtergrond
van Stefanie Lechthaler
Achtergrond
van Michelle Brändle