Nieuwsbrief

Blijf wekelijks op de hoogte van het beste uit De Kennis van Nu en het laatste nieuws!

MELD JE AAN
In de Amerikaanse tv-serie 'Person of Interest' herkennen camera's in de openbare ruimte mensen en proberen ze te voorspellen ho

Nog even en camera’s in de openbare ruimte herkennen ons automatisch. Hoe doen ze dat, en hoe lang duurt het nog voor het echt zo ver is?

Deze week werd bekend dat een groep Amerikaanse Facebook-gebruikers uit de staat Illinois Facebook heeft aangeklaagd vanwege de toepassing van automatische gezichtsherkenning. Op basis van foto’s die je zelf op Facebook plaatst, kan Facebook-software jou ook herkennen op foto’s die anderen plaatsen, tenminste in de VS. Europa heeft deze toepassing in 2012 al geweerd juist vanwege privacy-zorgen.

Volgens de klagers is deze automatische gezichtsherkenning in strijd met de Biometrics Information Privacy Acts van de staat Illinois. Volgens die wet had Facebook gebruikers schriftelijk om toestemming moeten vragen voor het verzamelen en opslaan van biometrische informatie. Maar dat heeft het bedrijf helemaal niet gedaan.

Deep Face
Computers worden steeds beter in het herkennen van gezichten. In maart 2014 werd bekend dat Facebook’s zogeheten Deep Face-software met 97 procent betrouwbaarheid kan aangeven of op twee verschillende foto’s het gezicht van een en dezelfde persoon is te zien. En dat is net zo goed als mensen dat gemiddeld kunnen.

De dataset bestond uit vier miljoen foto’s van bijna vierduizend verschillende gezichten, genomen onder diverse hoeken en lichtomstandigheden. Tot voor kort herkenden computers gezichten alleen maar wanneer ze netjes in de lens keken, goed belicht, en met een neutrale gezichtsuitdrukking, maar met software zoals Deep Face zijn ook deze beperkingen grotendeels opgeheven.

Deep Face gebruikt een netwerk van negen hiërarchische lagen van kunstmatige neuronen met meer dan 120 miljoen verbindingen hiertussen. De verbindingen kunnen sterker of zwakker worden tijdens een leerproces met miljoenen beelden, net zoals de verbindingen tussen hersencellen in het menselijk brein.

Elke laag van dit neurale netwerk neemt een specifiek deel van de gezichtsherkenning voor zijn rekening. De eerste laag kijkt bijvoorbeeld alleen of een pixel licht of donker is. De tweede laag leert om randen en simpele vormen te onderscheiden. Een nog hogere laag leert om complexe vormen en objecten als neus, mond en ogen te onderscheiden. De hoogste laag leert uiteindelijk om gezichten op foto’s met elkaar te vergelijken en aan te geven welke gezichten hoogst waarschijnlijk van dezelfde persoon zijn.

De techniek die Deep Face gebruikt is een lerende techniek die Deep Learning heet. Deep Learning is losjes gebaseerd op de manier waarop het menselijk brein beelden verwerkt. De prestatie van Deep Face is zonder meer indrukwekkend, maar alleen als de beelden net zo netjes zijn als in Facebook's database. Onder realistische omstandigheden is de techniek nog lang niet zo goed in het herkennen van gezichten als het menselijk brein.

Super herkenners
De tv-uitzending van De Kennis van Nu van woensdag 8 april laat zien hoeveel beter menselijke super recognizers van de Londense politie gezichten herkennen vergeleken met een computer. Op camerabeelden van de rellen die Londen teisterden tussen 6 en 11 augustus 2011 herkenden vijftien super recognizers samen maar liefst 1.300 oproerkraaiers, terwijl de computer er maar eentje had herkend.

Het verschil met de prestatie van Deep Face? De camerabeelden tonen bewegende mensen en de beelden zijn soms donker en vaag. In dat soort moeilijke omstandigheden is het menselijk brein nog steeds superieur. Nog wel, maar de computer rukt op.

Het menselijk brein gebruikt maar liefst dertig procent van de hersenschors voor het herkennen van beelden. En binnen de beeldherkenning speelt gezichtsherkenning een speciale rol. Ons visuele systeem toont al kort na de geboorte een voorkeur voor gezichten en zelfs voor abstracte patronen die alleen maar op een gezicht lijken, zoals een patroon van drie zwarte stippen die vaag op ogen en mond lijken.

Pasgeboren baby's kijken structureel langer naar patronen die op gezichten lijken (a) dan naar vergelijkbare patronen die niet o

De neiging om snel gezichten te herkennen is zo sterk dat we zelfs gezichten zien waar er helemaal geen zijn: in een kraterpatroon op Mars of in een surrealistisch schilderij van Salvador Dali.
 

Mensen herkennen gezichten in extreem lage resolutie beelden, zo vaag als zestien bij zestien pixels. Zelfs wanneer gezichten enorm worden ingedeukt of uitgerekt in lengte of breedte blijven we gezichten behoorlijk goed herkennen. Dat laat zien dat het herkennen van gezichten veel meer is dan het opmeten van afstanden tussen ogen, neus, mond en oren. Dat zijn de metingen die een computer typisch uitvoert wanneer hij met biometrische gezichtsherkenning pasfoto's scant.

Holistisch kijken
Een belangrijke conclusie van decennialang onderzoek naar hoe mensen gezichten herkennen is dan ook dat dat op een holistische manier gebeurt, in plaats van op een reductionistische manier. We herkennen een gezicht als één geheel in plaats van als een verzameling losse kenmerken (ogen, mond, neus, kaaklijn etc.).

Niet alle kenmerken wegen even zwaar. Wenkbrauwen blijken het belangrijkst in de herkenning, gevolgd door ogen, mond en neus. Gezichtseigenschappen die te maken hebben met lichtweerkaatsing (albedo, tint, textuur) blijken trouwens ook belangrijk.

Interessant genoeg worden we niet met een holistische manier van kijken geboren. Baby’s bestuderen gezichten nog vooral reductionistisch, terwijl achtjarigen al voornamelijk op een holistische manier gezichten herkennen.

Een tweede belangrijke conclusie is dat mensen heel goed in staat zijn om op basis van één beeld van een gezicht te generaliseren hoe datzelfde gezicht er onder andere lichtomstandigheden, onder andere hoeken en van andere afstanden uit ziet. Precies dit kenmerk is het grote verschil tussen hoe computers en hoe mensen gezichten herkennen. Computers hebben momenteel grote aantallen voorbeelden nodig om van te leren.

Inhaalrace

Toch lijkt het ook hier een kwestie van tijd voordat de computer de mens heeft ingehaald. Een van de grondleggers van de computationele neurowetenschappen, de Italiaanse hoogleraar Tomaso Poggio van het Massachusetts Institute of Technology (MIT), vordert gestaag met het bouwen van een computeralgoritme dat net zoals de mens maar heel weinig voorbeelden nodig heeft om van te leren. 

De Amerikaan Marvin Minsky, een van de grootste pioniers van de kunstmatige intelligentie, gaf in de jaren zestig het probleem van beeldherkenning als zomerproject mee aan een groepje studenten. Hij dacht werkelijk nog dat ze een paar maanden later met de oplossing zouden komen. Die paar maanden zijn inmiddels al vijftig jaar geworden.

Nog steeds is het probleem niet volledig opgelost, maar computers naderen met rasse schreden. Het lijkt een kwestie van tijd voordat ze gezichten betrouwbaarder herkennen dan wij mensen dat voor elkaar krijgen. Hoe anders zullen we dan kijken naar alle camera’s in de openbare ruimte?