image

CBS gebruikte telecomdata van T-Mobile om drukte in steden te monitoren

donderdag 11 juni 2020, 10:26 door Redactie, 26 reacties

Het Centraal Bureau voor de Statistiek (CBS) heeft telecomdata van T-Mobile gebruikt om drukte in Nederlandse steden te monitoren. Dit tot verbazing van de Autoriteit Persoonsgegevens. Onlangs stelde de privacytoezichthouder nog dat het gebruik van telecomdata door het RIVM om het coronavirus te bestrijden alleen via een spoedwet mogelijk is.

Twee jaar geleden gingen het CBS en T-Mobile samenwerken, waarbij de telecomprovider "zeer grote datasets" met het statistiekenbureau deelde. Het ging hierbij om "geanonimiseerde antennegegevens", aldus het CBS op de eigen website. Met de data kon de drukte in steden worden gemeten. "De methode is tot stand gekomen in een nauwe samenwerking tussen CBS en T-Mobile. Om tot de tellingen te komen doorlopen we een aantal stappen waarbij de data al bij de bron (T-Mobile) volledig anoniem is gemaakt", zo laat de uitleg van het CBS weten.

De data werd vervolgens gebruikt om de bezoekerspatronen per gemeente in kaart te brengen. Zo is het via een interactieve kaart mogelijk om per gemeente de personen die de gemeente binnenkomen en verlaten te bekijken. "Het patroon geeft de drukte weer van een gemeente in de tijd en kan als het ware worden beschouwd als de hartslag van de gemeente", zo stelt het statistiekenbureau.

Voormalig CBS-demograaf Jan Latten vertelt aan Goedemorgen Nederland dat het om een nieuwe methode ging. "Men ontdekte dat je veel kon meten over dichtheid van bevolking aan de hand van telefoons. Dit was een experiment om te kijken hoe je digitale gegevens van telefoons kunt gebruiken om iets te zeggen over de aanwezigheid van mensen."

Niet anoniem

Onlangs liet de Autoriteit Persoonsgegevens weten dat locatiegegevens van telecomproviders niet anoniem zijn te maken. "Het anoniem maken van dit soort gegevens kan niet, omdat dat nooit onomkeerbaar is. Wie weet waar iemand woont of werkt en die gegevens combineert met de 'geanonimiseerde' locatiegegevens van heel veel mensen, kan met die combinatie achterhalen wie bij welke locatiegegevens hoort", aldus de toezichthouder. Volgens AP-voorzitter Aleid Wolfsen zijn locatiegegevens dan ook persoonsgegevens en mogen die niet zomaar worden gedeeld.

De enige manier om deze gegevens toch te kunnen gebruiken is een wettelijke regeling, bijvoorbeeld via een spoedwet. "Het gebruik van locatiegegevens van burgers door de overheid is zeer ingrijpend. Zo’n maatregel moet in ieder geval duidelijk zijn, in verhouding staan tot het doel ervan en voldoende waarborgen bevatten. Daar zullen wij goed op letten, mocht er zo’n wetsvoorstel komen", stelt Wolfsen. Inmiddels heeft het kabinet een dergelijk wetsvoorstel naar de Tweede Kamer gestuurd.

Verbaasd

De Autoriteit Persoonsgegevens reageert tegenover het NRC verbaasd dat het CBS met telecomdata aan de slag is gegaan. "Dit is opmerkelijk. Wij gaan in gesprek met het CBS. Het is aan het CBS om dan aan te tonen dat het volgens de regels handelde", zo reageert de toezichthouder. Die merkt verder op dat het op dit moment nog onduidelijk is of de telecomdata die het CBS gebruikte hetzelfde is als de data waar de spoedwet over gaat.

Het CBS laat aan het NRC weten dat het om pilotprojecten met anonieme gegevens ging, waarop de AVG niet van toepassing is. Verder blijkt dat CBS-medewerkers op het kantoor bij T-Mobile werkten. Daar hadden ze echter "beperkte toegang" tot de data, aldus een CBS-woordvoerder. Het CBS zou sinds een half jaar geen telecomdata meer van T-Mobile ontvangen.

Latten stelt dat het gebruik van telecomdata ook handig is voor politie, die zo snel kan zien waar veel mensen bijeenkomen. De voormalig CBS-demograaf stelt dat de samenleving een keuze moet maken. "Willen we meer veiligheid of meer privacy? Daarin zal een nieuwe balans moeten komen."

Reacties (26)
11-06-2020, 10:40 door Anoniem
Big Brother ingevoerd per spoedwet. Wie protesteren en houden het zeker in deze vorm nog tegen?

Niet en niemand dus.

Is het gerechtvaardigd en over zo'n lange periode, ook nu er wellicht geen tweede golf komt
en het achteraf voornamelijk een grote hoax bleek te zijn geweest?

Neen, men wil gebruik maken van deze kans uit duizenden om tot massa-surveillance te komen.
Slepen met T-mobile gegevens. Nu nog volledig geanonimiseerd, maar ik moet al de laatste drie cijfers
van mijn BSN-nummer aan de postbode noemen ter verificatie om een pakje te kunnen ontvangen.
Is dat laatste fraude-gevoelig. Is dit aales wat ze doen niet fraude-gevoelig?
Levert het ons burgers wat op?. Een frutje meer gezondheid, maar nog veel meer ellende?

De rol die hierbij commercie mag spelen is ongehoord.
Commercie dicteert hier de markt & de markt dicteert de overheid.
Overheid aan de leiband van globale belangen.
Ze durven dat laatste niet eens toe te geven.

Lieve mensen, geef ze de kermis-zuurstok maar vandaag. Breughel draait zich nog om in z'n graf.
Of mogen zijn schilderijen straks ook al niet meer getoond worden binnen de nieuwe culturele revolutie?

#sockpuppet
11-06-2020, 10:50 door Anoniem
"Het anoniem maken van dit soort gegevens kan niet, omdat dat nooit onomkeerbaar is. Wie weet waar iemand woont of werkt en die gegevens combineert met de 'geanonimiseerde' locatiegegevens van heel veel mensen, kan met die combinatie achterhalen wie bij welke locatiegegevens hoort"

Jaja dus als je weet dat ik bijvoorbeeld in Amsterdam woon en in Rotterdam werk, dan kun je mij uit die geanonimiseerde gegevens van "drukte per stad" halen en verder volgen?
Veel succes daarmee!

Hetzelfde als je het niet per stad maar per wijk gaat doen ofzo. En daar ging het om, niet om de precieze locatie maar
om aantallen in een bepaald gebied.
11-06-2020, 11:13 door karma4 - Bijgewerkt: 11-06-2020, 11:15
Telecom data wordt ook al jaren gebruikt voor de drukte op wegen fdc, het raar dat het AP verbaasd is over iets gangbaars. https://verkeer.fandom.com/wiki/Verkeersmonitoring_met_Floating_Car_Data_via_GSM

Geanonimiseerde gegevens vallen niet ander de AVG.
Het zal een interessant spel worden van het CBS met achterliggende technische en statische kennis en het AP waar die kennis en inzichten ontbreken. Het lijken wel chinese toestanden mij het AP met een eigen rode boekje van de enige waarheid. Toch wel ernstig die houding van privacy tegenover veiligheid met een veranderde definitie van privacy dat niemand ook maar iets over een ander mag weten en zelfs algemene gebiedskenmerken als persoonskenmerken aangemerkt gaan worden.
11-06-2020, 11:31 door Anoniem
[qupte]De voormalig CBS-demograaf stelt dat de samenleving een keuze moet maken. "Willen we meer veiligheid of meer privacy? Daarin zal een nieuwe balans moeten komen."[/quote]
Opvallend dat het weer teruggebracht moet worden tot een keuze tussen twee opties. Alsof ze tegenstrijdig zijn.
Waarom deze opties niet:
Optie 3: Beide
Optie 4: Geen van beide.

Waarom trouwens "meer veiligheid".
Is Nederland dan nu tot een bananenrepubliek met doodseskaders verworden?
En waarom dan niet meer veilgheid met evenveel of meer privacy. Dat zal meer moeite kosten, maar zou mogelijk moeten zijn.


Wat zijn "antennegegevens" eigenlijk.
Alle telefoons, of alleen die met een T-Mobile abbo.
11-06-2020, 11:48 door Anoniem
@karma4,

Daar gaat het niet om, maar de overheid moet goed in de gaten gehouden worden en niet alleen de burger.
Wat als jij ineens gebeld wordt dat je twee weken in quarantaine moet blijven en je melden bij de GGD voor een test?

Of als je huisbezoek krijgt van een BOA omdat de buren je BBQ-feestje hebben aangemeld bij de lokale autoriteiten.

Wil je in zo'n spoedwet-maatschappij gaan leven? Ja, dat komt er ook nog van zonder specifieke gebiedskenmerken en volledig geautomatiseerd, dat omdat men dit nu eenmaal wil. Wil jij zoiets ook?

(Cyber-)criminaliteit los je er zeker niet mee op en dat willen we toch eerder. Dat wordt niet aangepakt.

luntrus
11-06-2020, 11:50 door Anoniem
Ignorance is bliss.... Dit doen alle telco's toch al lang buiten de spotlights... Ze weten dat ze op een big data goudmijn zitten. Banken zijn niet anders overigens. Connectivity, betaalinfra, zorg... we kunnen niet meer zonder en de controle over onze gegevens verwatert met de dag.

======================SNIP
Large companies have the ability to generate big amounts of data and information that, if they are not managed optimally, they are wasted, and with it great opportunities can be lost. Vodafone is a very clear example of this type of companies and they were aware of this problem.

The project, in direct collaboration with CARTO, offers a solution to this problem with an end-to-end platform that offers answers to business questions through the use of Big Data and telco data analysis based on the user’s location. Vodafone Analytics allows offering a lot of information to other companies, public and private, that are not able to generate, to improve their performance.
=====================
11-06-2020, 12:22 door Anoniem
Nu we met de T-Mobile gegevens achterhaald hebben waar de medewerkers van het AP wonen, kunnen we ze met zijn allen een bezoekje thuis brengen (wel op 1.5 m) zodat ze druk gaan voelen om dit soort creep van technische mogelijkheden en alziende data-analyse die onze privacy aantast uit de wereld te helpen.

Dit soort data-analyse stond ook aan de basis van de Brexit stemmingen en Trump's campagne.
Gaan politieke partijen volgend jaar in de ochtend of de middag flyeren op de markt, bij de uitgang van de parkeergarage of bij de invalsweg?
11-06-2020, 12:23 door MathFox
Geanonimiseerde gegevens vallen niet ander de AVG.
Niet tot een persoon herleidbare gegevens vallen niet onder de AVG. Als de anonimisering (of pseudonimisering) omkeerbaar is zijn de gegevens wel persoonsgegevens.
Wat zijn "antennegegevens" eigenlijk.
Alle telefoons, of alleen die met een T-Mobile abbo.
T-Mobile heeft antennegegevens van alle mobiele toestellen die met het netwerk contact maken. Dat zijn de Nederlandse abonnementhouders en pre-payers, klanten van T-mobile wederverkopers plus de buitenlanders die gastgebruik maken. Uit de antennegegevens kun je bepalen in welke "cel" een gebruiker zit, met signaalsterke-trucks (en ik weet niet of die gebruikt worden) kun je de positie op tientallen meters bepalen.
11-06-2020, 12:25 door Anoniem
Door Anoniem: "Het anoniem maken van dit soort gegevens kan niet, omdat dat nooit onomkeerbaar is. Wie weet waar iemand woont of werkt en die gegevens combineert met de 'geanonimiseerde' locatiegegevens van heel veel mensen, kan met die combinatie achterhalen wie bij welke locatiegegevens hoort"

Jaja dus als je weet dat ik bijvoorbeeld in Amsterdam woon en in Rotterdam werk, dan kun je mij uit die geanonimiseerde gegevens van "drukte per stad" halen en verder volgen?
Veel succes daarmee!

Hetzelfde als je het niet per stad maar per wijk gaat doen ofzo. En daar ging het om, niet om de precieze locatie maar
om aantallen in een bepaald gebied.
In dit geval - en als het goed is ingeregeld - wordt dat lastig inderdaad. Maar onderschat de kracht van correlatie niet. MI6 heeft eens een test gedaan met correlatie van annonieme data uit vier of vijf openbare bronnen. Daaruit bleek dat vrijwel niemand meer anoniem was.
11-06-2020, 12:34 door Anoniem
Door karma4: Telecom data wordt ook al jaren gebruikt voor de drukte op wegen fdc, het raar dat het AP verbaasd is over iets gangbaars. https://verkeer.fandom.com/wiki/Verkeersmonitoring_met_Floating_Car_Data_via_GSM

Geanonimiseerde gegevens vallen niet ander de AVG.
Het zal een interessant spel worden van het CBS met achterliggende technische en statische kennis en het AP waar die kennis en inzichten ontbreken. Het lijken wel chinese toestanden mij het AP met een eigen rode boekje van de enige waarheid. Toch wel ernstig die houding van privacy tegenover veiligheid met een veranderde definitie van privacy dat niemand ook maar iets over een ander mag weten en zelfs algemene gebiedskenmerken als persoonskenmerken aangemerkt gaan worden.

Weer het gebruikelijke getoeter over het AP. Je hebt nog steeds geen benul van het mandaat en de wettelijke basis waarmee het AP zijn werk doet. Als je de materie niet begrijpt, kan je ook niet meedoen aan de discussie.

Het probleem is dat keer op keer anoniem gemeende cijfers dat niet blijken te zijn. Door gegevens handig te bewerken en zeker door ze met andere bronnen te combineren valt er een hoop te achterhalen, vaak tot op individueel niveau. Dat is geen kwestie van theorie, maar harde praktijk. Terecht dat het AP daar vol bovenop zit. Aan goochelarij waarmee we herleidbare data wiswassen heeft niemand wat.

https://www.wired.com/2013/03/anonymous-phone-location-data/
11-06-2020, 12:34 door Anoniem
Door MathFox:
Geanonimiseerde gegevens vallen niet ander de AVG.
Niet tot een persoon herleidbare gegevens vallen niet onder de AVG. Als de anonimisering (of pseudonimisering) omkeerbaar is zijn de gegevens wel persoonsgegevens.
Wat zijn "antennegegevens" eigenlijk.
Alle telefoons, of alleen die met een T-Mobile abbo.
T-Mobile heeft antennegegevens van alle mobiele toestellen die met het netwerk contact maken. Dat zijn de Nederlandse abonnementhouders en pre-payers, klanten van T-mobile wederverkopers plus de buitenlanders die gastgebruik maken. Uit de antennegegevens kun je bepalen in welke "cel" een gebruiker zit, met signaalsterke-trucks (en ik weet niet of die gebruikt worden) kun je de positie op tientallen meters bepalen.
Het hangt er vooral vanaf hoe ze info aanleveren. Als je een raster van 500x500 meter hanteert en je geeft aantallen mobiele telefoons per rastervalk waarbij je een drempelwaarde van minimaal 25 telefoons hanteert, dan lijkt het me knap lastig om de data naar een persoon te herleiden.
Zolang het aantal telefoons in een rastervlak onder de drempelwaarde ligt, rapporteert het systeem '0'; Dat zorgt ervoor dat je nooit individuele gevallen eruit kunt filteren. Als het om druktemeting gaat, dan zijn lage aantallen in een rastervlak ook niet relevant.
11-06-2020, 12:37 door Anoniem
Latten stelt dat het gebruik van telecomdata ook handig is voor politie, die zo snel kan zien waar veel mensen bijeenkomen. De voormalig CBS-demograaf stelt dat de samenleving een keuze moet maken. "Willen we meer veiligheid of meer privacy? Daarin zal een nieuwe balans moeten komen."

Heeft Grapperhaus een mol bij het CBS geplaatst? Deze begrippen liggen helemaal niet tegenover elkaar. Maar goed, daarom is het wellicht ook een voormalig demograaf. Niet geschikt voor zijn functie.
11-06-2020, 12:42 door karma4 - Bijgewerkt: 11-06-2020, 13:22
Door MathFox:
Geanonimiseerde gegevens vallen niet ander de AVG.
Niet tot een persoon herleidbare gegevens vallen niet onder de AVG. Als de anonimisering (of pseudonimisering) omkeerbaar is zijn de gegevens wel persoonsgegevens.
De GDPR heeft een duidelijk onderscheid willen maken.
Niet het spraakgebruik van wat details verbergen als anonimiseren benoemen. Dat sticht te veel verwarring.
De definitie in de GDPR:
- Pseudonmiseren, dan zijn het persoonsgegevens ook al zie je niet direct over wie het gaat.
- Anonimiseren is per definitie niet herleidbaar tot een persoon

Het idee dat alles wat een locatie aanduiding bevat zoals het aantal inwoners van de Bijlmer je dan ook van alles weet over wiet het exact gaat dat heeft het AP zelf verzonnen. Het is niet volgens wat de WP29 werkgroep gedaan heeft.

Door Anoniem: Weer het gebruikelijke getoeter over het AP. Je hebt nog steeds geen benul van het mandaat en de wettelijke basis waarmee het AP zijn werk doet. Als je de materie niet begrijpt, kan je ook niet meedoen aan de discussie.

Het probleem is dat keer op keer anoniem gemeende cijfers dat niet blijken te zijn. Door gegevens handig te bewerken en zeker door ze met andere bronnen te combineren valt er een hoop te achterhalen, vaak tot op individueel niveau. Dat is geen kwestie van theorie, maar harde praktijk. Terecht dat het AP daar vol bovenop zit. Aan goochelarij waarmee we herleidbare data wiswassen heeft niemand wat.

https://www.wired.com/2013/03/anonymous-phone-location-data/
Je geeft een uitstekend voorbeeld van het gebruik van gespseudonimiseerde gegevens. Zeer verwarrend aangeduid in het spraakgebruik als geanonimiseerd. De GDPR en WP29 heeft om die reden er zo'n expliciet beschreven verschil in gemaakt. Verdiep je er in voordat je gaat ongenuanceerd gaat afgeven.
Uit je referentie: "Based on hourly updates of a user's location, tracked by pings from their mobile phone to nearby cell towers .." Dat zijn volgens de GDPR definitie gepseudonimiseerde gegevens, het zijn details per telefoon.
11-06-2020, 13:24 door Anoniem
AP Baseert zich op het artikel van Fengli Xu en anderen (samenwerkingsverband tussen 3 universiteiten waaronder Stanford en Göttingen): "Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data" (https://arxiv.org/pdf/1702.06270.pdf). Het is een knap staaltje werk dat zeker in acht moet worden genomen als het om geagreggeerde telecomdata gaat.

Ik kan niet zeggen dat ik alles uit het artikel meteen begrijp. Het lijkt er op dat een caveat is dat het hier om geagreggeerde data per zendmast gaat, wat vermoedelijk betekent dat de delta's gevolgd worden. Als dat zo is, kan het zijn dat per heel cluster van zendmasten de deltas in het water vallen. Een andere caveat zou kunnen zijn als de geagreggeerde data van alle providers op een hoop zou worden gegooid. Maar dat weet ik niet zeker. Het zou mooi zijn als iemand die het onderzoek door en door begrijpt commentaar zou kunnen geven in begrijpelijke taal waarom dit werkt en wat de caveats zouden zijn om alsnog tot echte anonimiteit te komen.
11-06-2020, 13:29 door Anoniem
Door karma4: De definitie in de GDPR:
- Pseudonmiseren, dan zijn het persoonsgegevens ook al zie je niet direct over wie het gaat.
- Anonimiseren is per definitie niet herleidbaar tot een persoon

Afhankelijk van de dataset die je hebt, kun j eheel makkelijk uit anonyme data mensen herleiden.

https://nakedsecurity.sophos.com/2019/07/25/youre-special-after-alland-thats-bad-for-your-privacy/
https://dataprivacylab.org/projects/pgp/
https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/Voor Nederland (ik heb dat getest) en vallen de percentages van de voorbeelden nog hoger uit:Geboorte jaar (of leeftijd) en postcode nummer kom je al rond de 90% uit.Met meer details (bv hele datum en volledige postcode en/of geslacht) ga je al boven de 95% uitkomen.Vandaar dat het AP zo argwanend is.Anoniem is niet altijd anoniem.En dit zijn dan maar de simpele voorbeelden.
11-06-2020, 14:59 door Anoniem
Door karma4:
Door MathFox:
Geanonimiseerde gegevens vallen niet ander de AVG.
Niet tot een persoon herleidbare gegevens vallen niet onder de AVG. Als de anonimisering (of pseudonimisering) omkeerbaar is zijn de gegevens wel persoonsgegevens.
De GDPR heeft een duidelijk onderscheid willen maken.
Niet het spraakgebruik van wat details verbergen als anonimiseren benoemen. Dat sticht te veel verwarring.
De definitie in de GDPR:
- Pseudonmiseren, dan zijn het persoonsgegevens ook al zie je niet direct over wie het gaat.
- Anonimiseren is per definitie niet herleidbaar tot een persoon

Het idee dat alles wat een locatie aanduiding bevat zoals het aantal inwoners van de Bijlmer je dan ook van alles weet over wiet het exact gaat dat heeft het AP zelf verzonnen. Het is niet volgens wat de WP29 werkgroep gedaan heeft.

Door Anoniem: Weer het gebruikelijke getoeter over het AP. Je hebt nog steeds geen benul van het mandaat en de wettelijke basis waarmee het AP zijn werk doet. Als je de materie niet begrijpt, kan je ook niet meedoen aan de discussie.

Het probleem is dat keer op keer anoniem gemeende cijfers dat niet blijken te zijn. Door gegevens handig te bewerken en zeker door ze met andere bronnen te combineren valt er een hoop te achterhalen, vaak tot op individueel niveau. Dat is geen kwestie van theorie, maar harde praktijk. Terecht dat het AP daar vol bovenop zit. Aan goochelarij waarmee we herleidbare data wiswassen heeft niemand wat.

https://www.wired.com/2013/03/anonymous-phone-location-data/
Je geeft een uitstekend voorbeeld van het gebruik van gespseudonimiseerde gegevens. Zeer verwarrend aangeduid in het spraakgebruik als geanonimiseerd. De GDPR en WP29 heeft om die reden er zo'n expliciet beschreven verschil in gemaakt. Verdiep je er in voordat je gaat ongenuanceerd gaat afgeven.
Uit je referentie: "Based on hourly updates of a user's location, tracked by pings from their mobile phone to nearby cell towers .." Dat zijn volgens de GDPR definitie gepseudonimiseerde gegevens, het zijn details per telefoon.

Nogmaals, het probleem is dat gegevens die echt anoniem - niet gepseudonimiseerd maar echt anoniem - geacht werden dat met nieuwe data-technieken toch niet blijken te zijn. In de VS is een rel ontstaan over medische datasets waarbij gebruikers anoniem geacht werden, maar dat niet bleken te zijn. Dat is de kracht van big data en iets waarmee zelfs mensen die ermee werken het schip ingaan. Ga je een aantal anonieme datasets naast elkaar leggen, dan ontstaat er nog veel sneller een probleem.

Als je weet wat echt anoniem is, dan zou een groot deel van het probleem opgelost zijn, maar dat weten we dus niet. Zelfs van zaken waarvan we nu denken dat ze anoniem zijn zou zomaar kunnen blijken dat dat niet het geval is. De enige optie is dus zeer conservatief met dit soort zaken om te gaan.
11-06-2020, 16:39 door karma4
Door Anoniem:
Nogmaals, het probleem is dat gegevens die echt anoniem - niet gepseudonimiseerd maar echt anoniem - geacht werden dat met nieuwe data-technieken toch niet blijken te zijn.
In de VS is een rel ontstaan over medische datasets waarbij gebruikers anoniem geacht werden, maar dat niet bleken te zijn. Dat is de kracht van big data en iets waarmee zelfs mensen die ermee werken het schip ingaan. Ga je een aantal anonieme datasets naast elkaar leggen, dan ontstaat er nog veel sneller een probleem.
Ik ken het en daardoor ook de mogelijkheden onmogelijkheden en valkuilen.
Kijk eens rond bij de open datasets op 4pc (alleen de postcode). Dat is naar mijn gevoel als te fijnmazig.
Op gemeenteniveau (50.000) wordt dat anders. Ik weet dat er 300 gemeentes en 25 ggd-regios zijn.
Bij de snelweg die en die locatie staat een file van 10km zegt weinig over wie er in de file staat (1500 autos ca 2.500 personen).

Medische dataset zijn bij uitstek voorbeelden van gepseudonimiseerde ofwel niet geanonimiseerde gegevens (GDPR definitie niet volgens het spraakgebruik). Adam datasets en gebruik Cdisc als intro.
- Je kun makkelijk liegen met statistiek en de plaatjes
- De verwarring en het liegen doe je ook door je niet strak aan eenduidige definities te houden.

Als je weet wat echt anoniem is, dan zou een groot deel van het probleem opgelost zijn, maar dat weten we dus niet. Zelfs van zaken waarvan we nu denken dat ze anoniem zijn zou zomaar kunnen blijken dat dat niet het geval is. De enige optie is dus zeer conservatief met dit soort zaken om te gaan.
Op onbewezen vermoedens harde uitspraken doen is gewoon niet goed. Bij voorbaat schuldig zonder bewijs of verdediging
De begrippen en definities pseudonimiseren en anonimiseren door elkaar gaan gooien is foute framing.
11-06-2020, 17:40 door Anoniem
Door karma4:
Door Anoniem:
Nogmaals, het probleem is dat gegevens die echt anoniem - niet gepseudonimiseerd maar echt anoniem - geacht werden dat met nieuwe data-technieken toch niet blijken te zijn.
In de VS is een rel ontstaan over medische datasets waarbij gebruikers anoniem geacht werden, maar dat niet bleken te zijn. Dat is de kracht van big data en iets waarmee zelfs mensen die ermee werken het schip ingaan. Ga je een aantal anonieme datasets naast elkaar leggen, dan ontstaat er nog veel sneller een probleem.
Ik ken het en daardoor ook de mogelijkheden onmogelijkheden en valkuilen.
Kijk eens rond bij de open datasets op 4pc (alleen de postcode). Dat is naar mijn gevoel als te fijnmazig.
Op gemeenteniveau (50.000) wordt dat anders. Ik weet dat er 300 gemeentes en 25 ggd-regios zijn.
Bij de snelweg die en die locatie staat een file van 10km zegt weinig over wie er in de file staat (1500 autos ca 2.500 personen).

Medische dataset zijn bij uitstek voorbeelden van gepseudonimiseerde ofwel niet geanonimiseerde gegevens (GDPR definitie niet volgens het spraakgebruik). Adam datasets en gebruik Cdisc als intro.
- Je kun makkelijk liegen met statistiek en de plaatjes
- De verwarring en het liegen doe je ook door je niet strak aan eenduidige definities te houden.

Als je weet wat echt anoniem is, dan zou een groot deel van het probleem opgelost zijn, maar dat weten we dus niet. Zelfs van zaken waarvan we nu denken dat ze anoniem zijn zou zomaar kunnen blijken dat dat niet het geval is. De enige optie is dus zeer conservatief met dit soort zaken om te gaan.
Op onbewezen vermoedens harde uitspraken doen is gewoon niet goed. Bij voorbaat schuldig zonder bewijs of verdediging
De begrippen en definities pseudonimiseren en anonimiseren door elkaar gaan gooien is foute framing.

Er wordt niets door elkaar gegooid, de enige die aan het framen is ben jij. Het gaat ook niet om schuldig zijn, het gaat erom dat je alleen gegevens mag verwerken waarvan je met enige stelligheid kunt zeggen dat ze echt anoniem zijn. Dat kan niet, dus dan niet. Het is 'nee tenzij', niet andersom.
11-06-2020, 19:08 door karma4 - Bijgewerkt: 11-06-2020, 19:13
Door Anoniem: AP Baseert zich op het artikel van Fengli Xu en anderen (samenwerkingsverband tussen 3 universiteiten waaronder Stanford en Göttingen): "Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data" (https://arxiv.org/pdf/1702.06270.pdf). …
.. Het zou mooi zijn als iemand die het onderzoek door en door begrijpt commentaar zou kunnen geven in begrijpelijke taal waarom dit werkt en wat de caveats zouden zijn om alsnog tot echte anonimiteit te komen.
Een poging, vraag 1 wat is het detailniveau van de gegevens:
"Table 1: Examples of the mobility data releasing by operators from di?erent countries"
datasets 1 en 2 zijn gepseudonimiseerd niet geanonimiseerd.
Met de kennnis van detailrecords over de personen creditcard (locatie naam bedrag) kun je dat koppelen. (verwijzing naar 16 in hfdst 2.1 uhh detailsrecords met een creditcard over personen en locatie kun je de detailrecord telefoongegevens koppelen. Dat lijkt me nogal voor de hand liggend.

De verdieping is nodig naar datasets 3,4,5.
Hfdst 3.1 Er wort een populatie van 15.000 en een van 100,000 over de vele stations gevolgd.. Let op de beperking in de populatiegrootte met het doel deze exact te volgen op verplaatsingen.
hfdst 3.2 " Figure 1 shows the mobility trajectories of randomly selected users from the operator dataset over two days. We can clearly observe that each user has a coherent mobility trajectory, i.e., their mobility trajectories in the ?rst day are similar to that of the second day. "

-->>Hoe komen ze aan die details met een persoon van een enkel smartphone?.
Dit is de omgekeerde redenering als je iemand kent en waarneemt dan kun je zien waar hij geweest is.
Ik zie iemand om 09:15 een treinkaartje kopen zie hem naar de trein lopen en krijg zijn betaalbewijs met naam en toenaam, Dan weet ik wie ergens heen gaat.
De werkelijk vraagstelling was kun je aan enkel de geaggregeerde locatie data zien wie het geweest is.

"Figure 8: Accuracy, recovery error and uniqueness of the recovered trajectories, where #1, #2 and #3 represent the recovered results after step 1, step 2 and step 3, respectively."
Dit is de beschrijving voor deze datasets waar een verplaatsingspatroon uitkomt. Dat verplaatsingspatroon bepalen is nu net het doel van epidemologisch onderzoek. Mooi het doel van het RIVM is mogelijk.

Aan het eind van 5.2 wordt het weer vaag. Als je de locaties tijdstip van een persoon hebt dan kan je die aan een traject koppelen. Geen bewijs maar enkel suggestief. De foutenmarges in het herleiden van de trajecten tot een uniek geval is een ander stuk. Ga naar figuur 9,10,11 Daar zit dat verhaal. Hoe meer data of een indeling aggregatie van de gegevens.
Dat van de sectoren open toren hebben ze voor meer detail meegenomen. De accuracy is bij 50.000 al flink in elkaar gestort voor de torens (base). Uniqeness blijft hangen maar bij een district aggregatie niet meer te volgen.

Wat je mist is het verwijderen van tellingen met een ondergrens. Hier mist een onderbouwing wat er gebeurt als je niet perfect alles doorgeeft. Aangezien een ieder op een bepaald moment wel ergens uniek aanwezig is kun je ook dat als een open deur zien.

Dat RiVM gebeuren met de vraag naar aggregatie op gemeente (meerdere torens) en weglaten unieke gevallen (<15) lijkt me prima onderbouwd met dit onderzoek.
11-06-2020, 20:05 door The FOSS
Door karma4: ... De verdieping is nodig naar datasets 3,4,5.
Hfdst 3.1 Er wort [sic] een populatie van 15.000 en een van 100,000 over de vele stations gevolgd. ...

Het is Jort (Kelder).
11-06-2020, 22:12 door Anoniem
Door karma4:
Door Anoniem: AP Baseert zich op het artikel van Fengli Xu en anderen (samenwerkingsverband tussen 3 universiteiten waaronder Stanford en Göttingen): "Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data" (https://arxiv.org/pdf/1702.06270.pdf). …
.. Het zou mooi zijn als iemand die het onderzoek door en door begrijpt commentaar zou kunnen geven in begrijpelijke taal waarom dit werkt en wat de caveats zouden zijn om alsnog tot echte anonimiteit te komen.
Een poging, vraag 1 wat is het detailniveau van de gegevens:
"Table 1: Examples of the mobility data releasing by operators from di?erent countries"
datasets 1 en 2 zijn gepseudonimiseerd niet geanonimiseerd.
Met de kennnis van detailrecords over de personen creditcard (locatie naam bedrag) kun je dat koppelen. (verwijzing naar 16 in hfdst 2.1 uhh detailsrecords met een creditcard over personen en locatie kun je de detailrecord telefoongegevens koppelen. Dat lijkt me nogal voor de hand liggend.

De verdieping is nodig naar datasets 3,4,5.
Hfdst 3.1 Er wort een populatie van 15.000 en een van 100,000 over de vele stations gevolgd.. Let op de beperking in de populatiegrootte met het doel deze exact te volgen op verplaatsingen.
hfdst 3.2 " Figure 1 shows the mobility trajectories of randomly selected users from the operator dataset over two days. We can clearly observe that each user has a coherent mobility trajectory, i.e., their mobility trajectories in the ?rst day are similar to that of the second day. "

-->>Hoe komen ze aan die details met een persoon van een enkel smartphone?.
Dit is de omgekeerde redenering als je iemand kent en waarneemt dan kun je zien waar hij geweest is.
Ik zie iemand om 09:15 een treinkaartje kopen zie hem naar de trein lopen en krijg zijn betaalbewijs met naam en toenaam, Dan weet ik wie ergens heen gaat.
De werkelijk vraagstelling was kun je aan enkel de geaggregeerde locatie data zien wie het geweest is.

"Figure 8: Accuracy, recovery error and uniqueness of the recovered trajectories, where #1, #2 and #3 represent the recovered results after step 1, step 2 and step 3, respectively."
Dit is de beschrijving voor deze datasets waar een verplaatsingspatroon uitkomt. Dat verplaatsingspatroon bepalen is nu net het doel van epidemologisch onderzoek. Mooi het doel van het RIVM is mogelijk.

Aan het eind van 5.2 wordt het weer vaag. Als je de locaties tijdstip van een persoon hebt dan kan je die aan een traject koppelen. Geen bewijs maar enkel suggestief. De foutenmarges in het herleiden van de trajecten tot een uniek geval is een ander stuk. Ga naar figuur 9,10,11 Daar zit dat verhaal. Hoe meer data of een indeling aggregatie van de gegevens.
Dat van de sectoren open toren hebben ze voor meer detail meegenomen. De accuracy is bij 50.000 al flink in elkaar gestort voor de torens (base). Uniqeness blijft hangen maar bij een district aggregatie niet meer te volgen.

Wat je mist is het verwijderen van tellingen met een ondergrens. Hier mist een onderbouwing wat er gebeurt als je niet perfect alles doorgeeft. Aangezien een ieder op een bepaald moment wel ergens uniek aanwezig is kun je ook dat als een open deur zien.

Dat RiVM gebeuren met de vraag naar aggregatie op gemeente (meerdere torens) en weglaten unieke gevallen (<15) lijkt me prima onderbouwd met dit onderzoek.

Je moet het ons vergeven dat we de conclusie van het AP iets meer op waarde schatten dan die van een willekeurige internetganger, en zeker eentje die zo stelselmatig laat blijken dat hij de beginselen niet beheerst. Dat is nog even los van dat zelfs topmensen uit het vakgebied zich nog regelmatig vergissen in wat toch mogelijk blijkt, dus ook als iemand heel goed weet waar het over gaat is het laatste woord niet gezegd.
12-06-2020, 05:57 door karma4 - Bijgewerkt: 12-06-2020, 06:02
Door Anoniem: Er wordt niets door elkaar gegooid, de enige die aan het framen is ben jij. Het gaat ook niet om schuldig zijn, het gaat erom dat je alleen gegevens mag verwerken waarvan je met enige stelligheid kunt zeggen dat ze echt anoniem zijn. Dat kan niet, dus dan niet. Het is 'nee tenzij', niet andersom.
Kom met de analyse wat dat onderzoek wat het AP gebruikt nu inhoud dat anonimiseren niet mogelijk is.
Als anonimiseren niet mogelijk zou zijn dan is het onderscheid daarvoor in de GDPR ook nutteloos.

Zonder dat onderzoek te begrijpen en alleen een enkel zinnetje daaruit te gebruiken dat "het wel eens zou kunnen zijn dat als je iemand kent dat je ook zijn verplaatsing kan inschatten" maak je je schuldig aan framing met een spurieus verband. Hier wordt het onbegrip van datanalyse op de foute manier door het AP aangetoond.

In het genoemde onderzoek heb ik nog geen bewijs gevonden dat je iedereen kan volgen, integendeel.
Als er ijsjes gegeten worden is de kans op een haai aanval groter. Haaienaanvallen ligt aan ijsjes eten.
12-06-2020, 07:41 door karma4 - Bijgewerkt: 12-06-2020, 07:45
Door Anoniem: AP Baseert zich op het artikel van Fengli Xu en anderen (samenwerkingsverband tussen 3 universiteiten waaronder Stanford en Göttingen): "Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data" (https://arxiv.org/pdf/1702.06270.pdf). …
.. Het zou mooi zijn als iemand die het onderzoek door en door begrijpt commentaar zou kunnen geven in begrijpelijke taal waarom dit werkt en wat de caveats zouden zijn om alsnog tot echte anonimiteit te komen.

We gaan verder. Er wordt verwezen naar de Hungarian algorithm. Een bekend iets wordt ook Munkres genoemd
Genoeg packages ofwel code packages om het zonder zelf hoeven te snappen aan te roepen.
https://pypi.org/project/hungarian-algorithm/ Het komt uit de lineaire programmering optimalisatie hoek, het is niet stochastisch. De betekenis daarvan is dat het net zoals het handelsreizigerprobleem zeer lastig te parallelliseren is.
Het gemakkelijk afdoen dat een map/reduce GPU alle doorlooptijd vraagstukken vanzelf oplost klopt niet.
In die hoe is werk verzet https://pdfs.semanticscholar.org/96ac/b7bed709091eaddda47370fd01982e6beea8.pdf
De voorwaarde is dat je geïsoleerde delen van de matrix kan bepalen. De Dagelijkse verplaatsingen uit Rotterdam kan je anders zien dan die van Amsterdam.

Let op: Wat wordt er uit de data gehaald met deze analyse in het stuk waarnaar verwezen wordt?.
Dat zijn de meest voor de hand liggende verplaatsingen ofwel de gangbare reisroutes (het doel van het RIVM)
De gevallen waar je een unieke reis vind welke maar door 1 persoon afgelegd is dat is uniqeness.
Zoals het Rivm gevraagd onder de 15 wordt niets geteld, een enkel persoon kan je niet volgen.

In het onderzoek 3.1 "Dataset collected by mobile application:... It records the mobile users spatiotemporal points
when it is activated for service interactions. The dataset traces over 15,000 mobile users from November 1st to 14th, 2015.
It records finne-grained spatiotemporal information of mobile users, including anonymized user identification, accessed base stations and timestamp.
considerations of dealing with such sensitive data:mobile users identifiers are replaced with random sequences to achieve anonymizations"
Het gaat niet om geanonimiseerde maar gepseudonimiseerde gegevens bij beide datasets.
De tweede dataset betreft 100.000 gebruikers. Deze gebruikers worden gevolgd over 8000 base stations met sectoren (major city china). Dat is een steekproef vanuit een totale populatie gezien dat aantal stations.
Heel Nederland heeft zo'n 50.000 antennes deze worden op masten gecombineerd. Niet elke antenne is voor gsm.

Met deze gepseudonimiseerde datasets zijn er tellingen (lage aantallen meenemend) gemaakt.
Welke vraag is gesteld? "Recovering a user's mobility trajectory is equivalent to associating the ID removed mobility records that are created by the same user across different time slots.
Therefore, the fundamental question to ask is: how to identify the mobility records that belong to the same mobile users?"

Daar staat dat de detailrecords van pseudonmisatie weer terugeherleid worden naar de trajecten.
Deze detailrecords is nu net wat het RIVM en CBS niet krijgen.

Opvallend in dit verhaal dat ze naar nieuwe gepseudonimiseerd data gegaan zijn en niet de geaggregeerde beschikbare data 3,4,5 als bewijs in het onderzoek gebruikt hebben. Kennelijk lukt het vaststellen van trajecten of ander unieke kenmerken op personen daar niet mee.
12-06-2020, 09:44 door karma4
Door Anoniem: [Je moet het ons vergeven dat we de conclusie van het AP iets meer op waarde schatten dan die van een willekeurige internetganger, en zeker eentje die zo stelselmatig laat blijken dat hij de beginselen niet beheerst. Dat is nog even los van dat zelfs topmensen uit het vakgebied zich nog regelmatig vergissen in wat toch mogelijk blijkt, dus ook als iemand heel goed weet waar het over gaat is het laatste woord niet gezegd.

Het verhaal met anonimiseren en pseudonimiseren is duidelijk fout wat het AP zegt. Ze hebben de beginselen stelselmatig niet door als ze zelfs de WP groep voorbereiding niet door hebben. Dat is onvergeeflijk. Alleen een verwijzing maken naar iets maar niet de inhoud begrijpen is kwalijk.

Met het blind achterna lopen wat een aan roept zonder zelf naar de inhoud te willen kijken geef de eigen onkunde aan.
Dat je het daarna afdoet dat jouw wens om niet na te kunnen of na te willen denken is wat big brother graag heeft.
12-06-2020, 12:19 door karma4
Door Anoniem: AP Baseert zich op het artikel van Fengli Xu en anderen (samenwerkingsverband tussen 3 universiteiten waaronder Stanford en Göttingen): "Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data" (https://arxiv.org/pdf/1702.06270.pdf). …
.. Het zou mooi zijn als iemand die het onderzoek door en door begrijpt commentaar zou kunnen geven in begrijpelijke taal waarom dit werkt en wat de caveats zouden zijn om alsnog tot echte anonimiteit te komen.

Verder met een vervolg. Dat verhaal "Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data" is precies volgende de kop. Als je de detailrecords hebt (pseudonimisatie) kan je die met de geaggregeerde data weer een eind terugwerken. Die geagregeerde data moet zo te zien goed bij de detailrecords horen en die detailrecords moeten ruim voorzien van unieke details. De vraag is welk reviews dubbel check verwijzingen gemaaakt zijn.

- https://blog.acolyer.org/2017/05/15/trajectory-recovery-from-ash-user-privacy-is-not-preserved-in-aggregated-mobility-data/ Niets van een review of dubbele controle.. Enkel de verwijzing naar dat onderzoek. Om Stapel van te worden.

Well een onderzoek hoe je het op een goede manier kan aanpakken.
- https://ntnuopen.ntnu.no/ntnu-xmlui/handle/11250/2571690 Net geheel verrassend de link met Telenor.
In de introduction wordt naar het bovenstaande verhaal verwezen. [6]]

Hier gaat het over ""However, deciding the level of noise and anonymity that is necessary to protect the users without losing valuable information in the data, is not trivial. Ofwel hoe je gegevens verantwoord kan gebruiken.
Het is een ander insteek dan zoeken naar iets dat het in een bepaalde situatie niet verantwoord is.

Het testen of je trajecten kan vinden is anders. Hier hebben ze alleen geaggregeerde data en niets van details per gsm.
Het toevoegen van extra syntetische gegevens (verzonnen data) is de uitweg.
Het is beter leesbaar. Bedenk het doel was de algemene reispatronen zonder individuen te herkennen.
10-05-2021, 12:07 door Anoniem
Wat ik niet begrijp is dat niemand het volledige verhaal lijkt te lezen dat het CBS zelf op de site heeft staan. Ze hebben er technisch goed over nagedacht. Ook omdat ik al publicaties vindt uit 2009. https://www.cbs.nl/nl-nl/longread/diversen/2020/inleidende-methodebeschrijving-pilot-mobiele-telefoniedata

Daaruit kun je opmaken hoe het werkt en dat de uitkomsten echt anoniem zijn. Zelfs als er maar 1 toestel wordt geteld. Jammer dat niemand dit leest. Zo lopen we als Nederland heel erg achter. Bang voor vooruitgang.
Reageren

Deze posting is gelocked. Reageren is niet meer mogelijk.