Het anonimiseren van gegevens houdt niet in dat de inhoud nooit meer achterhaald kan worden, zeker als er zwakke anonimiseringstechnieken worden gebruikt, zo heeft een beveiligingsonderzoeker aangetoond. Onderzoeker Vijay Pandurangan ontving een bestand met 20GB aan ritjes van New Yorkse taxi's.
Het ging in totaal om 173 miljoen taxiritjes. Van elke rit was de ophaallocatie en bestemming vermeld, geanonimiseerde licentienummers en geanonimiseerde taxinummers en andere gedragsgegevens. Hoewel de licentienummers en taxinummers waren geanonimiseerd bleek dit niet adequaat gedaan te zijn. Pandurangan ontdekte dat beide nummers met het MD5-hashingalgoritme waren gecodeerd.
Een hashingalgoritme geeft bij dezelfde invoer altijd dezelfde uitvoer weer. "Het is erg lastig om te achterhalen wat de invoer was als je niet weet hoe de invoer er mogelijk heeft uitgezien. Dat is precies wat je van een anonimiseringsfunctie wil. Het probleem is echter dat we in dit geval heel veel over de invoer weten", aldus Pandurangan. De licentienummers bestaan namelijk uit zes cijfers, of zeven cijfers en dan beginnend met een 5.
Dat houdt in dat er ongeveer 2 miljoen licentienummers mogelijk zijn. Hetzelfde geldt voor de taxinummers, die ook een voorspelbaar patroon volgen, bijvoorbeeld één cijfer, één letter en twee cijfers (5X55), of twee letters en drie cijfers (XX555) of drie letters en drie cijfers (XXX555).
In totaal zouden er zo'n 22 miljoen taxinummers mogelijk zijn. Dankzij deze variabelen en de rekenkracht van Amazon's clouddiensten wist de onderzoeker uiteindelijk de gehele dataset te de-anonimiseren. Pandurangan herhaalt dan ook het advies van andere onderzoekers, namelijk dat alleen het gebruik van een hashingfunctie niet voldoende is om data te anonimiseren.
Deze posting is gelocked. Reageren is niet meer mogelijk.