Dit is deel 2 over ontwikkelingen m.b.t. het toepassen van biometrie in de private sector: Het vorige deel heette "Kan biometrie ooit veilig worden toegepast?" en gaat in op de generieke problematiek met biometrie en de opkomst van "encrypted biometrics". Dit deel belicht voice biometrics oftewel stemherkenning.
Biometrie sluipt het dagelijks leven binnen: er komen steeds meer toepassingen van biometrie in de private sector. Van kantoren die vingerafdrukken of irissen gebruiken als toegangspas tot en met stemherkenning over de telefoon. In ruil voor comfort (makkelijke identificatie, snel betalen, etc.) krijgt de aanbieder een 'veilige' manier om de identiteit van iemand te kunnen vaststellen. Albert Heijn begon met een proef met vingerafdruk betaling. Bij mijn lokale dvd-o-theek kan ik huren met mijn vingerafdruk, de laptop beveiligen met een vingerafdruk, en de grens op Schiphol oversteken na een irisscan. Bij sommige luchtvaartmaatschappijen kan men inmiddels zelf het vliegtuig instappen zonder check van grondpersoneel.
Stemherkenning is nog een relatief onbekend fenomeen, toch wordt het al meer dan 15 jaar gebruikt in de forensische opsporing. Politiediensten weten nu eenmaal niet altijd van wie een stem is op een bandopname, bijvoorbeeld als de verdachte van een getapte telefoonlijn met een onbekend nummer belt. Sinds een paar jaar zijn er ook toepassingen van stemherkenning in de private sector, vooral daar waar het vaststellen van de identiteit belangrijk is.
Hoe werkt het?
De stem van ieder mens is anders, de stembanden en de klankkast in iemands mond zorgen daarvoor. Op het gehoor is de mens in staat om redelijk stemmen van elkaar te onderscheiden maar daarbij wordt ook veel gebruik gemaakt van karakteristieke intonaties en woordgebruik (denk aan de imitatoren op TV). Dit is echter veel te weinig nauwkeurig om iemands identiteit precies te kunnen vaststellen.
Stembiometrie gebruikt de karakteristieken van stemgeluid, maar niet de toonhoogte want die kan bewust of onbewust veranderen. De klankkast in je mond bevat genoeg kenmerken dat van 7 seconden spraak al een deugdelijk "voicemodel", een afdruk van je stem kan worden gemaakt. Onderzoek gedurende 20 jaar wijst uit dat de volwassen stem niet wezenlijk verandert, tenzij er operaties in de mondholte of aan de stembanden plaatsvindt.
Door iemands stem op te nemen en er een voice-model van te maken (enrollen), kan je een stem laten herkennen (verifiëren), of zelfs opsporen in een database (identificeren).
Spraakherkenning versus stemherkenning?
Stemherkenning herkent wie iets zegt, maar niet wat iemand zegt. De toepassing van spraakherkenning is inmiddels redelijk bekend bij het grote publiek. De Nederlandse Spoorwegen heeft een systeem gehad (?) waar door middel van spraakherkenning werd afgeleid van/naar welk station je wilde reizen. Een aantal "nummer-opzoek" aanbieders gebruiken het om een eerste selectie van zoekresultaten te doen.
De techniek van stemherkenning is heel anders dan bij spraakherkenning en aanbieders ondersteunen dan ook nauwelijks allebei. Het Spaanse bedrijf Agnitio is bijvoorbeeld gespecialiseerd op stemherkenning, niet op spraakherkenning.
Hoe zou het kunnen worden toegepast?
Toepassingen voor stemherkenning vind je vooral op het telefonische / mobiele vlak, waarbij het belangrijk is om de identiteit van de persoon aan de lijn te verifiëren. Bijvoorbeeld bij telefonische order-desks van postorder bedrijven, of trading-rooms van financiële instellingen. Ook zou men notoire telefonische fraudeurs kunnen opsporen via transparante identificatie.
De killer-app voor stemherkenning is waarschijnlijk het resetten van wachtwoorden. Op dit moment is het bij veel organisaties redelijk eenvoudig door een helpdesk een wachtwoord te laten resetten. Dat helpt in ieder geval de productiviteit want een medewerker zonder toegang tot zijn desktop of email is bij veel kennisintensieve bedrijven niet productief. Helaas is de identiteitsverificatie van de persoon die belt om "zijn" wachtwoord te laten resetten, bij veel bedrijven bedroevend. Er hoeven geen sterke staaltjes "social engineering" te worden toegepast om zo toegang te krijgen tot een account. Bovendien worden helpdesks gemiddeld 30% van de tijd belast met het resetten van wachtwoorden, een behoorlijke kostenpost.
Uitdagingen genoeg voor stemherkenning!
Bij het verifiëren van iemands stem zijn er genoeg uitdagingen om deze techniek goed te laten werken; zowel problemen die te maken hebben met spraakcommunicatie als uitdagingen op het gebied van fraude :
Spraakcommunicatie
Spraakcommunicatie kan tegenwoordig op veel manieren plaatsvinden, denk aan reguliere telefoonlijnen (landlijnen), mobiele telefoons, skype, voip, handsfree via een bluetooth oortje, de conference call spiders, etc, etc. Bijna al deze kanalen en technieken gebruiken andere methoden van modulatie en protocollen om spraak om te zetten in data en die op te knippen om over het (mobiele of data) netwerken te verzenden. Aan de ontvangende kant worden de pakketten weer samengevoegd en worden verschillende manieren gebruikt om te compenseren voor "lost data packets" oftewel stukjes verloren gegane spraak.
Ruis
We bellen/skypen op de vreemdste plekken, waaronder ook plekken met veel achtergrondgeluid. De microfoon staat ook niet meer noodzakelijkerwijs dicht bij onze mond, zoals bijvoorbeeld bij bluetooth-oortjes. Kortom, er is veel ruis te verwachten bij gesprekken, naast 'ruis' ontstaan door bovengenoemde verloren data-pakketjes.
Stemvervorming door verkoudheid, imitatie
Een stem kan door allerlei oorzaken anders klinken op bepaalde dagen zoals: verkoudheid, stress, omgeving, of bewuste vervorming. Imitatoren slagen er bijzonder goed in iemands stem te benaderen.
Stemherkennings-software moet dus met verschillende spraak-protocollen kunnen omgaan, ruis, afwijkingen van de eigen stem en kunnen compenseren voor achtergrond lawaai. Geen eenvoudige opgave.
Wapens tegen fraude!
Het eerste dat mensen meestal tegenwerpen als ik spreek over stemherkenning, is dat het tegenwoordig zo eenvoudig is iemands stem op te nemen. Bijna iedereen heeft een mobiele telefoon die gesprekken kan opnemen. Spy-gadgets zijn vrij verkrijgbaar. Hoe kan je er dan zeker van zijn dat het een persoon is die belt, of dat er een opname wordt afgespeeld? In de wereld van stemherkenning heet dit soort fraude: "replay attacks".
Replay attacks kunnen worden gedetecteerd door de software: men kan analyseren of het om een opname in de vrije ruimte gaat (far field recording), want dat is heel anders dan het spreken in een telefoon. Of dat het bijvoorbeeld een eerder gebruikte authenticatie poging is (door te vergelijken met eerdere pogingen). Daarnaast zou je de gebruiker een paar random cijfers kunnen laten herhalen en dat met spraakherkenning kunnen verifieren. Dan wordt het wel zeer moeilijk om een replay attack te doen.
Zoals in een eerder deel opgemerkt, kan fraude ook plaatsvinden door mensen met (oneigenlijke) toegang tot het systeem, bijvoorbeeld door enrollment opnames te kopiëren (als die al worden bewaard). Met behulp van onhoorbare "watermerken” kunnen deze opnames worden beschermd tegen hergebruik bij verificaties.
Als laatste zou men een stem kunnen synthetiseren, maar ook dat kan worden gedetecteerd. Bovendien kan dit sowieso niet aan de hand van een voice model Daar is een "voice model", in tegenstelling tot een normale vingerafdruk-template zoals nu veel gebruikt wordt, niet geschikt voor.
Stemherkenning is de enige remote biometric
Stemherkenning zullen we vooral tegen gaan komen bij het willen verifiëren van iemand die mogelijk niet fysiek op een bepaalde plek is, aangezien het de enige biometrische toets op afstand is. Er zijn geen speciale lezers of scanners voor nodig en het is centraal te implementeren. Er moet natuurlijk wel goed worden nagedacht over de enrollment procedure en het verificatie proces, al dan niet in combinatie met een token, transactie id etc.
Martijn Moret is eigenaar van Vidamore dat zich richt op innovatieve technologie in de luchtvaartindustrie. Hij werkt samen met enkele biometrie-bedrijven.
Deze posting is gelocked. Reageren is niet meer mogelijk.