AnalyseArtificiële intelligentie

Alsof Scarlett Johansson naast je bed staat: spraakassistent van ChatGPT gniffelt, aarzelt of reageert verrast

Joaquin Phoenix speelt een man die een romantische relatie aangaat met een chatbot in de film 'Her' van Spike Jonze.Beeld For Times Community News

Gevat, flirterig of troostend. Een spraakassistent van de makers van ChatGPT doet de grenzen tussen robot en mens vervagen. De film Her is weer een stapje dichterbij.

Bruno Struys 14 mei 2024, 19:06

Anderhalf jaar na de lancering van chatbot ChatGPT slaat het team van OpenAI nog eens toe. Op een officiële bekendmaking toonden ze maandagavond een gesprek met een spraakassistent die uitblinkt in naturel. Vraag GPT-4o om een verhaaltje voor het slapen en ze leest in een oogwenk met zoetgevooisde stem een zelfverzonnen sprookje. Je kan haar onderbreken met de vraag om meer drama, en hop, het is alsof Scarlett Johansson zelve naast je bed staat.

We kiezen niet toevallig deze actrice. Sam Altman, CEO van OpenAI, had voor zijn belangrijke lancering maar drie letters voor op X: Her. In de film met die titel wordt het hoofdpersonage verliefd op een spraakassistent met de stem van Johansson. In een blogpost zegt Altman: “Het voelt als AI uit de films en het verbaast me nog steeds een beetje dat het echt is.”

De film Her heeft dan wel een dystopisch kantje, toch is die verwijzing ook wel Altmans vaste marketingtruc. Hij vermeldt hem consequent als zijn lievelingsfilm in interviews sinds ChatGPT anderhalf jaar geleden de wereld bestormde. In elk geval stappen we, sneller dan we in 2022 konden vermoeden, uit de ‘uncanny valley’, waarbij omgang met robots ongemakkelijk aanvoelt omdat ze hard op ons lijken, maar net niet hard genoeg.

Als over enkele weken GPT-4o ook effectief uitkomt, zullen we weten of Altman de verwachtingen uit de gelanceerde demovideo’s inlost. De nieuwe spraakassistent heeft een erg korte reactiesnelheid, gniffelt, aarzelt of reageert verrast. Het is het soort natuurlijke conversatie waarvan Apples Siri en Amazons Alexa nooit ook maar in de buurt kwamen.

“Je onderbreken, een andere tone of voice aannemen, subtiele hints oppikken, dat zijn allemaal dingen die we menselijk vinden”, zegt Steven Latré, die het onderzoeksteam AI bij technologiebedrijf Imec leidt. “Tot gisteren was het awkward om met een open AI-model te praten. Dat verandert nu, maar de ervaring leert me dat de kracht en zwaktes pas zullen bovenkomen als iedereen het gebruikt.”

De o in GPT-4o staat voor ‘omni’, want deze taalassistent zal gratis zijn ‘voor iedereen’. Ook dat gebruikt Altman in zijn marketing, maar de realiteit is dat onze massale oefeningen met hun software en de feedback die we daarop geven, hun taalmodel in sneltempo verbeteren.

De ontwikkelingen worden ook voortgestuwd door een concurrentieslag. OpenAI stelt zijn nieuwste paradepaardje niet toevallig nu voor, een dag voor een update van Gemini, de AI-technologie van Google.

Ethisch problematische toepassingen

Er zouden ook andere redenen zijn om GPT-4o gratis ter beschikking te stellen. Het bedrijf is zo niet aansprakelijk voor ethisch problematische toepassingen. Bedrijven zullen namelijk wel betalen om GPT-4o in hun product te integreren.

Latré: “Er komen zeker goede toepassingen aan, zoals een gps waarmee je een gesprek voert, of een app die je helpt om te klussen, maar we zien ook voorbeelden van zogenaamde ‘hallucinaties’, waarbij de artificiële intelligentie onwaarheden verzint”, zegt Latré. “Ze schuiven die verantwoordelijkheid door naar de app-ontwikkelaar.”

Zelfs over het afstandelijker tekstgestuurde ChatGPT verschenen het afgelopen jaar verhalen van mensen die toch te ver gingen in hun relatie met AI. Verschillende media experimenteerden met een mogelijke verliefdheid. The Washington Post bracht getuigenissen van mensen die verliefd werden op chatbot Replika, maar na een update hun liefde onbeantwoord zagen. Zei er iemand ‘Her’?

Ook al doen de ontwikkelaars hun best om AI zo menselijk mogelijk te doen lijken, we kunnen er geen menselijkheid van verwachten. Het blijft een taalmodel, dat woorden zo goed mogelijk achter elkaar zet, voortaan ook met intonatie en stemkleur.

De ontwikkelingen gaan zo snel dat wetgeving noodgedwongen achterophinkt. Een Europese AI-wet is onlangs goedgekeurd door het parlement, maar treedt pas in werking vanaf 2026.

Criminelen

De nieuwe AI-revolutie biedt ook opties voor criminelen. Nu al zijn er voorbeelden van stemnabootsingen door audiofragmenten te voeden aan een AI-model. Op die manier kunnen criminelen mensen aan de telefoon misleiden.

“Nu moet je die tekst nog altijd eerst typen, waarna die stem de zinnen voorleest, maar met een AI-spraakassistent kan je een zogezegde bankmedewerker een gesprek laten voeren dat natuurlijk aanvoelt, waarbij die inpikt op wat het slachtoffer zegt”, zegt Michiel Vaes, onderzoeker bij het Kenniscentrum Data & Maatschappij.

Toch ziet Vaes ook positievere toepassingen, zoals personages in videogames. Zelf is hij betrokken bij de ontwikkeling van POL, een spraakrobot die nieuwkomers tussen 11 en 14 jaar moet helpen bij het leren van Nederlands.

“Het idee is dat je bijvoorbeeld een foto oplaadt van je hobby en dan een gesprek erover voert met POL”, zegt Vaes.

Ook dat is iets wat GPT-4o pretendeert te kunnen: toon een blad met een wiskundevraagstuk en de assistent lost het op. Via de camera kan hij analyseren in welke setting hij zich bevindt, en zelfs de emoties aflezen van het gezicht tegenover hem.

Open AI liet GPT-4o raden waarom ze een video opnamen, waarbij de spraakassistent vernam zelf het voorwerp van de aankondiging te zijn. De vrouwenstem leek gecharmeerd te reageren.

“Huh? Over mij? De aankondiging gaat over mij? Mijn interesse is gewekt. Je hebt me op het puntje van mijn... wel, ik heb niet echt een stoel, maar je snapt het wel.”