De 5 deelnemers in de 6e aflevering van 'De mol'
Foto: GoPlay

"Ben je klaar om mijn stem te horen?": waarom de mol herkennen moeilijker is dan verwacht

OPGELET, SPOILER! De echte stem van de mol eruit pikken als je ook 4 door AI gegenereerde stemmen van de overige kandidaten hoort? Het blijkt in deze aflevering van 'De mol' geen eenvoudige opdracht. "Stemmen nabootsen met artificiële intelligentie kan vandaag dan ook nagenoeg perfect", legt AI-expert Vincent Ginis uit.

De kandidaten krijgen in de 6e aflevering van 'De mol' de kans om naar de stem van de verrader te luisteren: "ongefilterd, zonder effect en zonder storing". Er wordt heel wat geld voor geboden, maar uiteindelijk gaat Michaël met die unieke kans lopen.

Toch blijkt dat ongefilterde telefoontje van de mol geen rechtstreeks ticket naar de finale te zijn. Zo krijgt Michaël naast de stem van de mol, ook de stemmen van de 4 overgebleven kandidaten te horen, al zijn die met artificiële intelligentie in elkaar geknutseld.

De échte stem in die selectie herkennen is niet makkelijk. Michaël besluit zelfs om een 2e keer naar de stemmen te luisteren, al lijkt hij daar nog steeds niet veel wijzer uit te worden. Of hij is zelf de mol en zet hier een knap staaltje acteerwerk neer, dat kan natuurlijk ook. 

Michaël breekt zijn hoofd over welke van de stemmen die hij hoort, de échte stem van de mol is
Foto: GoPlay

"Uit onderzoek blijkt dat het voor mensen bijna onmogelijk geworden is om nog een onderscheid te maken tussen stemmen die door artificiële intelligentie gegenereerd zijn en menselijke stemmen", zegt Vincent Ginis, professor in de wiskunde en AI-onderzoeker aan de VUB. "Meer nog, artificiële intelligentie kan bestaande menselijke stemmen nagenoeg perfect nabootsten."

Met grote stappen vooruit

"De architectuur achter generatieve AI, die artificieel teksten, beelden of stemmen kan genereren, is rond 2016 fundamenteel veranderd", legt Ginis uit. "De verfijning ervan en het trainen van die modellen met grote hoeveelheden data, dat is in de afgelopen jaren pas heel erg op punt gekomen."

De opnames van 'De mol' waren een paar maanden geleden, dat maakt echt al een verschil

Vincent Ginis, professor in de wiskunde en AI-onderzoeker aan de VUB

Vandaag gaat deze technologie volgens Ginis enorm snel vooruit. "De opnames van 'De mol' waren een paar maanden geleden en zelfs die tijdspanne maakt echt al een verschil."

"Op dit moment staat die technologie dus erg ver, maar is ze bovendien ook relatief eenvoudig bruikbaar voor iedereen geworden", gaat hij verder. "Zo kan je online bijvoorbeeld voorgeprogrammeerde stemmen dingen laten zeggen, maar zijn er ook al modellen beschikbaar waar je een paar minuten van een stem kan opladen, die dan overgenomen wordt."

"Voor een robuuste nabootsing van een stem volstaat een opname van een paar minuten. Een telefoongesprek zou dus al voldoende kunnen zijn", voegt hij toe. "Als je echte 'filmkwaliteit' wil, heb je toch vaak toch een paar uur nodig."

De overige kandidaten bespreken de stem van de mol met Michaël
Foto: GoPlay

Hoe gaat dat in zijn werk?

Ginis vertelt dat de AI-technologie op basis van een opname een ‘embedding’ maakt. "Als je een stem oplaadt, gaat de computer naar een paar karakteristieken kijken. Dat zijn niet noodzakelijk de eigenschappen die wij gebruiken, zoals timbre en intonatie."

"Het systeem plakt wel een aantal getallen op die stem, plaatst die in een hoog-dimensionale ruimte en weet dan: 'vanaf nu kan ik zelf stemmen genereren die in die bepaalde regio zitten'. Op die manier kan jouw stem dus gereproduceerd worden."

Video’s genereren is dan weer een pak moeilijker. "De architectuur achter audio genereren is al een paar jaar ouder en de complexiteit van audio is veel lager dan die van video", legt hij uit. "Zo kan je ondertussen op een normale computer audio genereren, maar generatieve video’s zijn veel moeilijker te maken."

"Sora bijvoorbeeld, het systeem dat een paar maanden geleden nog veel ogen deed opengaan, dat is echt nog wel een stap verder."

Gevaren in de toekomst

Ten slotte waarschuwt Ginis er nog voor dat deze nieuwe toepassing in de toekomst ook voor problemen kan zorgen. "Denk aan de stakingen in Hollywood, waar stemacteurs bijvoorbeeld aanklaagden dat AI een bedreiging voor hun bestaan kan vormen."

"En dan heb je nog die andere moeilijkheid: fraude. Mensen hun stem nabootsen en dan familieleden opbellen, bijvoorbeeld, is een van de meest moderne vormen van 'phishing'. Dat is gelukkig nog niet heel erg in omloop, maar wordt ongetwijfeld mogelijk door deze technologie."

"Vroeger was de regel: 'Als je zeker wil zijn dat ik het ben, bel mij snel op'", zegt Ginis. "Dat gaat steeds moeilijker worden, want stemmen gaan jammer genoeg geen ultiem bewijs meer zijn."

"Overheden zijn daar nu over aan het nadenken en dat is goed, maar tegelijkertijd moet je als burger al leren omgaan met die nieuwe realiteit."

Meest gelezen