Dit artikel is geschreven door een mens

Lody

16-08-2018 | Wat als je iedereen kan laten zeggen of doen wat je wilt? En het enige wat je daarvoor nodig hebt een video en een hoop foto’s is?

Deepfakes is een nieuwe technologie die gebruikmaakt van een algoritme dat aan de hand van beelden o.a. gezichten leert te herkennen. Uiteindelijk kunnen deze beelden ook over andere gezichten worden gelegd waardoor je de hoofden wisselt.

Een klein voorbeeld:
Je neemt een speech van Donald Trump die je door een script laat analyseren. Het script haalt de video uit elkaar en maakt een uitsnede van elk frame met het gezicht van Trump. Daarna doe je hetzelfde bij een video van Rapper Sjors en kun je de twee met elkaar mengen: Rapper Sjors die bijvoorbeeld een speech geeft of Donald Trump die rapt.

En in het laatste zit ook meteen het probleem met deepfakes: recentelijk werd een subforum van Reddit over deepfakes nog verwijderd omdat er porno werd gemaakt door middel van het mixen van echte pornovideo’s en beelden van beroemdheden. Daar zijn immers genoeg beelden van te vinden om te gebruiken als input.

Niet alleen beroemdheden waren echter het doelwit. Dankzij de selfie-cultuur van o.a. Facebook en Instagram is het natuurlijk makkelijk om snel en veel beelden te vinden van wie je maar wilt. Dus ook van je ex. Zo kon er eenvoudig wraakporno worden gemaakt. Dit zorgde er ook voor dat het subforum uiteindelijk werd verbannen.

Maar hoe werkt de techniek precies? Deepfakes is een variant van deep learning, wat weer onderdeel uitmaakt van machine learning. Kort door de bocht uitgelegd werkt het als volgt.

Als baby kun je na een jaar pas goed zien. Eerst kun je alleen licht en beweging zien. Daarna gezichten, grote vormen en daarna ongeveer de rest. Dit komt doordat je ogen eerst alle “input” moet verwerken. Je ogen trainen je hersenen in het leren van wat ze zien. Het gros van je zicht als volwassene is dan ook niet gebaseerd op wat je ogen binnenkrijgen, maar eerder wat je hersenen hebben onthouden.

Machine learning werkt ongeveer hetzelfde, alleen dan versneld. Het interessante is dat het veel gelijkenissen toont met het menselijke geheugen. In het begin “ziet” de code de gezichten wazig. Hoe meer gezichten de code heeft gezien, hoe gedetailleerder ze uiteindelijk worden. De code is dan ook in staat om het gezicht in andere poses te genereren.

Deze techniek kan echter ook worden toegepast op meer dan alleen gezichten. Een bekende techniek is misschien wel de “style transfer”. Zo kun je een code alle schilderijen van Van Gogh laten zien. Uiteindelijk kan er dan een nieuwe van Gogh worden gemaakt aan de hand van een ander beeld.

In China wordt het systeem gebruikt bij het monitoren van de publieke ruimte: zo herkennen de camera’s wat voor voertuigen er rond rijden en ook waar de mensen zijn. Het uiteindelijke idee is dat de gezichten worden herkend en ook meteen worden getoetst aan de nationale database. Mocht je nog ergens voor gezocht worden of een openstaande boete hebben bijvoorbeeld.

Als je het zo allemaal leest klinkt het best wel eng allemaal. Maar zoals met elke techniek ligt de moraal in de handen van de gebruiker. Zo wordt machine learning ook toegepast bij autonome auto’s, zodat zij obstakels kunnen herkennen. Woorden en zinnen die automatisch kunnen worden vertaald, in de toekomst niet alleen in schrift maar ook met audio. In de medische industrie wordt het ook al toegepast om medicijnen verder te ontwikkelen.

En wat kunnen wij er als adverteerders mee? Je zou bijvoorbeeld een reeks auto’s kunnen laten analyseren van een bepaald merk en zo andere voertuigen kunnen genereren die op jouw merk auto’s lijken. Of je analyseert alle Facebook posts en kijkt welke het beste hebben gepresteerd, uiteindelijk zou het algoritme dan kunnen zien waarom ze zo goed hebben gewerkt en een nieuwe advertentie kunnen maken aan de hand van het geleerde.

En wie weet, zou je er zelfs blogartikelen door kunnen laten genereren.