Door Anoniem: Door Bitwiper: Door Anoniem: De MAC-adressen die CityTraffic telt worden geanonimiseerd.
De entropie van MAC adressen is veel te laag om dat veilig te kunnen doen.
Ohh? Leg uit!
Een MAC adres bestaat uit 6 bytes. De linker 3 bytes (waarvan in elk geval 1 bit onbruikbaar is: het "multicast bit", het laagste bit in de meest linker byte, waardoor hooguit 23 bits overblijven) bevatten de OUI (organizationally unique identifier). De rechter 3 bytes zijn vrij bruikbaar door de "eigenaar" waarbij deze ervoor verantwoordelijk is dat, gegeven een OUI, uitsluitend unieke adressen (dus combinaties van de rechter 3 bytes) worden uitgegeven.
Tegenwoordig bestaat er ook een soort "sub-classing" voor kleinere organisaties - waarbij de 3 bytes van de OUI over meerdere organisaties worden verdeeld, maar ik verwacht niet dat veel smartphones over zo'n MAC-adres zullen beschikken. Grotere fabrikanten hebben meestal meerdere OUI's (reeksen) en die komen waarschijnlijk niet in aanmerking voor korte reeksen.
Zojuist heb ik in
http://standards-oui.ieee.org/oui.txt 691 reeksen OUI's geteld die zijn toegekend aan Apple, Inc. Ik ga er vanuit dat bekend is wanneer (in welk jaar) Apple haar reeksen toegekend kreeg. Van reeksen ouder dan 5 jaar kun je gevoegelijk aannemen dat die nog voor een verwaarloosbaar aantal iPhones in gebruik zijn. Laten we er voor het gemak vanuit gaan dat van 256 reeksen (1 byte dus) bekend is dat ze door nog operationele iPhones worden gebruikt.
Met de rechter 3 bytes kun je 16777216 verschillende waardes maken. Maal 256 reeksen is 4294967296 (ca. 4 miljard).
Qua aantal is dat aan de ruime kant: als ik de totale verkopen van aantallen iPhones van 2007 t/m 2018 uit
https://www.statista.com/statistics/276306/global-apple-iphone-sales-since-fiscal-year-2007/ optel, kom ik op ruim 1468 miljoen - waarvan ca. 1200 miljoen verkocht in of na 2013.
Laten we er vanuitgaan dat er 7x zoveel Android smartphones zijn verkocht in die periode (dat is waarschijnlijk aan de ruime kant, zie
https://www.gartner.com/newsroom/id/3876865). Dan hebben we het over in totaal 8*1200 is, naar boven afgerond, 10 miljard, oftewel 10,000,000,000. Dat klinkt als een astronomisch groot getal, maar in de cryptografie is dat een lachertje - en slechts eentje meer dan de alle theoretisch mogelijke 10-cijferige telefoonnummers.
Door Anoniem: Daarnaast moet je niet alleen de MAC adressen hashen. Gewoon een salt per dag toevoegen: dan zijn de hashes van een MAC adres die dag rhetzelfde en kan je een anoniem device volgen, maar niet meer relateren aan hetzelfde device de dag ervoor of erna.
Als je de database van 1 dag, samen met de salt, in handen krijgt en het hashalgoritme kent of kunt raden, is het verre van "computationally infeasible" om een rainbow table te maken. Qua opslag is het helemaal een lachtertje (als de hashlengte 32 bytes is, zou je 320GB schijfruimte nodig hebben).
Als je de salt niet kent, maar wel één of meer MAC-adressen van smartphones die in de binnenstad zijn geweest, sluit ik niet uit dat je de hash kunt terugrekenen (brute force).
Het probleem is dat we helemaal niet weten
hoe wordt geanonymiseerd; wie weet doen ze ROT-13 of iets dergelijks. Een reversible algoritme (of, naast de gehashte data, ook de originelen bewaren) ligt bovendien voor de hand voor het geval dat er in de toekomst onenigheid ontstaat over of de data wel klopte.
Ook ligt het erg voor de hand om het merk smartphone uit te zonderen van het anonymiseer-algoritme, waardoor de entropie wordt verlaagd.
Bij Big Data fans moet je, in mijn ervaring, er
nooit van uitgaan dat ze het maximaal privacy-vriendelijk zullen hebben ingericht, want dat is
juist niet in hun belang. De geschiedenis heeft al ontelbare malen uitgewezen dat veel commerciële organisaties de grenzen opzoeken of er ruim overheen gaan. Ook bij bedrijven als CityTraffic weten ze dat de AP haar handen al vol met werk heeft.
Door Anoniem: De MAC- adressen zjin misschien geanonimiseerd, maar de SSID's die onze devices uitzenden (als je wifi aanstaat) dan?
Laat staan de combinatie.
Inderdaad. En voor elke smartphone die om bekende SSID's van publieke WiFi access points roept, kun je je voordoen als zo'n access point - waarna de meeste smartphones nog veel meer informatie prijsgeven, bijvoorbeeld "iPhone van Sander Schelberg" omroepen (als je wilt weten wie dat is zie
https://twitter.com/sanderschelberg).
Voor de zelf anoniem blijvende gluurders onder ons is natuurlijk ook prachtig als je deze data kunt combineren met de beveiligingscamera's die al geruime tijd in het centrum hangen (
https://www.tubantia.nl/hengelo/hengelo-wil-niet-meer-zonder-cameratoezicht-in-binnenstad~abe665dd/). En voor opsporingsdoeleinden is het sowieso niet handig om elke dag een andere salt te gebruiken...
Je gaat gewoon gevolgd worden, of je het wilt of niet. Je kunt alleen maar hopen dat dit soort gegevens niet in handen vallen van partijen die er misbruik van maken (inclusief op één of meer, op dit moment, nog onbekende manieren - steeds meer van onze gegevens, waaronder identificerende, worden immers gedigitaliseerd).
Bijvoorbeeld de Iraanse veiligheidsdienst schijnt er in geïntereseerd te zijn wanneer hun voormalige onderdanen zich waar bevinden - kwestie van CityTraffic hacken of iemand daar omkopen c.q. chanteren; vroeger of later gaat Big Data ook tegen je gebruikt worden.