Onze ervaringen met DALL-E 2, een AI-afbeelding generator

Groot was het enthousiasme op kantoor toen we op een morgen een exclusieve uitnodiging kregen om het DALL-E 2 model van OpenAI te testen. DALL-E 2 is de tweede generatie van een afbeeldingsgenerator die via artificiële intelligentie zes originele afbeeldingen creëert door middel van een opdracht die in spreektaal ingegeven wordt.

Disclaimer: Alle afbeeldingen in dit artikel, inclusief de cover-foto zijn volledig gegenereerd door DALL-E en dus allemaal origineel.

Hoe het werkt

DALL-E 2 is een verzameling AI-modellen met meer dan 3,5 miljard data entries. Er worden 3 modellen gebruikt om zes unieke afbeelding te genereren bij elke request: Prior, unCLIP en CLIP

Denk bijvoorbeeld aan het tekenen van een boot op zee met een vuurtoren in de achtergrond. Visualiseer hoe de tekening eruit zou zien. Het mentale beeld dat zojuist in je geest opdook is de menselijke analogie van een inbedding van een beeld. Je weet niet precies hoe de tekening eruit zou zien maar je weet wel wat de belangrijkste kenmerken zouden moeten zijn. Dit is wat het Prior model doet

Je kunt nu de tekening maken. Het beeld dat je in je geest hebt vertalen naar een echte tekening is wat unCLIP doet. Je zou nu perfect dezelfde opdracht kunnen hertekenen met gelijkaardige kenmerken maar met een totaal andere uiteindelijke look. Dat is ook hoe DALL-E 2 verschillende originele beelden kan maken van een gegeven opdracht.

Bedenk nu welke kenmerken die zin het best weergeven (bv. er is een boot, de zee, een vuurtoren...) en welke het best de afbeelding weergeven (bv. de voorwerpen, de stijl, de kleuren...). Dit proces van het coderen van de kenmerken van een zin en een beeld is wat het model CLIP doet.

Deze uitleg is natuurlijk sterk vereenvoudigd. In realiteit is het proces dat DALL-E volgt zeker niet hetzelfde als hoe onze hersenen werken.

Styling

DALL-E maakt niet alleen een indrukwekkende afbeelding maar je kan ook de kunststijl definiëren. Neem zo bijvoorbeeld onze tekening van de boot hierboven. Hoe zou deze er uit zien in de stijl van Vincent van Gogh? Of fotorealistisch? Of misschien zelfs de Ukiyo-e stijl die populair was in Japan in de 17de eeuw. Een koud kunstje voor DALL-E.

De mogelijkheden zijn oneindig en vaak surrealistisch:

Variaties van bestaande afbeeldingen

Een andere eigenschap van DALL-E is dat hij aan de hand van een afbeelding alternatieven kan genereren die qua stijl en kleurenpatroon sterk aanleunen bij het origineel.

Als voorbeeld gebruiken we “De kus” van Gustav Klimt:

Via de ‘infill’-techniek kunnen bestaande afbeeldingen ook gemanipuleerd worden. Neem het voorbeeld hieronder waarbij er een uitgezoomde versie gemaakt is van de Mona Lisa.

Risico’s en opportuniteiten

With great power comes great responsibility. Het team van OpenAI heeft daarom ook uitgebreid gedocumenteerd hoe ze moet dit AI-model omgaan en wat de grootste uitdagingen zijn.

Het model laat bijvoorbeeld niet toe om bekende mensen of expliciete content te gebruiken in afbeeldingen. “Elon Musk drinking a beer on Mars” wordt bijvoorbeeld meteen geweigerd. De mogelijkheid om fake news te genereren is helaas wel moeilijk te controleren. “Smoke coming out of the White House” genereert bijvoorbeeld wel een geloofwaardige afbeelding die zou kunnen doorgaan als een foto van een terroristische aanslag.

Er zijn ook heel wat ethische problemen. De mogelijkheid om copyright-vrije alternatieven te creëren van bestaande werken is er daar bijvoorbeeld eentje van.

Los van deze problematiek is DALL-E natuurlijk een geweldige voorbeeld waartoe artificiële intelligentie toe in staat is.

Onze ervaringen met DALL-E 2, een AI-afbeelding generator

Hoe het werkt

Styling

Variaties van bestaande afbeeldingen

Risico’s en opportuniteiten

Recente artikels

Klantverhaal: Wolfish Agency

Klantverhaal: Eco Protect

Recente artikels in categorie: Maatwerk

Klantverhaal: Eco Protect

Showcase: AI helpdesk medewerker