Disclaimer: Alle afbeeldingen in dit artikel, inclusief de cover-foto zijn volledig gegenereerd door DALL-E en dus allemaal origineel.

a painting of astronauts

Hoe het werkt

DALL-E 2 is een verzameling AI-modellen met meer dan 3,5 miljard data entries. Er worden 3 modellen gebruikt om zes unieke afbeelding te genereren bij elke request: Prior, unCLIP en CLIP

Denk bijvoorbeeld aan het tekenen van een boot op zee met een vuurtoren in de achtergrond. Visualiseer hoe de tekening eruit zou zien. Het mentale beeld dat zojuist in je geest opdook is de menselijke analogie van een inbedding van een beeld. Je weet niet precies hoe de tekening eruit zou zien maar je weet wel wat de belangrijkste kenmerken zouden moeten zijn. Dit is wat het Prior model doet

Je kunt nu de tekening maken. Het beeld dat je in je geest hebt vertalen naar een echte tekening is wat unCLIP doet. Je zou nu perfect dezelfde opdracht kunnen hertekenen met gelijkaardige kenmerken maar met een totaal andere uiteindelijke look. Dat is ook hoe DALL-E 2 verschillende originele beelden kan maken van een gegeven opdracht.

Bedenk nu welke kenmerken die zin het best weergeven (bv. er is een boot, de zee, een vuurtoren...) en welke het best de afbeelding weergeven (bv. de voorwerpen, de stijl, de kleuren...). Dit proces van het coderen van de kenmerken van een zin en een beeld is wat het model CLIP doet.

Deze uitleg is natuurlijk sterk vereenvoudigd. In realiteit is het proces dat DALL-E volgt zeker niet hetzelfde als hoe onze hersenen werken.

A painting of a boat at sea with a lighthouse in the background

Styling

DALL-E maakt niet alleen een indrukwekkende afbeelding maar je kan ook de kunststijl definiëren. Neem zo bijvoorbeeld onze tekening van de boot hierboven. Hoe zou deze er uit zien in de stijl van Vincent van Gogh? Of fotorealistisch? Of misschien zelfs de Ukiyo-e stijl die populair was in Japan in de 17de eeuw. Een koud kunstje voor DALL-E

a painting of a boat in different styles

De mogelijkheden zijn oneindig en vaak surrealistisch:

Van gogh painting van gogh

Variaties van bestaande afbeeldingen

Een andere eigenschap van DALL-E is dat hij aan de hand van een afbeelding alternatieven kan genereren die qua stijl en kleurenpatroon sterk aanleunen bij het origineel.

Als voorbeeld gebruiken we “De kus” van Gustav Klimt:

the kiss alternatives

Via de ‘infill’-techniek kunnen bestaande afbeeldingen ook gemanipuleerd worden. Neem het voorbeeld hieronder waarbij er een uitgezoomde versie gemaakt is van de Mona Lisa.

Mona Lisa sitting in a field

Risico’s en opportuniteiten

With great power comes great responsibility. Het team van OpenAI heeft daarom ook uitgebreid gedocumenteerd hoe ze moet dit AI-model omgaan en wat de grootste uitdagingen zijn.

Het model laat bijvoorbeeld niet toe om bekende mensen of expliciete content te gebruiken in afbeeldingen. “Elon Musk drinking a beer on Mars” wordt bijvoorbeeld meteen geweigerd. De mogelijkheid om fake news te genereren is helaas wel moeilijk te controleren. “Smoke coming out of the White House” genereert bijvoorbeeld wel een geloofwaardige afbeelding die zou kunnen doorgaan als een foto van een terroristische aanslag.

Er zijn ook heel wat ethische problemen. De mogelijkheid om copyright-vrije alternatieven te creëren van bestaande werken is er daar bijvoorbeeld eentje van.

Los van deze problematiek is DALL-E natuurlijk een geweldige voorbeeld waartoe artificiële intelligentie toe in staat is.