Door Anoniem: @karma4, 15:39:
Heb je informatie dat Michael Osborne geen goede cryptograaf is?
Zijn Cryptografische pseudoniemen niet veilig om in de eigen testomgeving te gebruiken in plaats van echte data?
Misschien is dit wel iets voor de belastingdienst?
https://www.rabobank.com/nl/press/search/2018/20180405-clientdata-testing.html
Als je iets van data-analyse weet zou je de onzin van blockchain voor pseudonimisatie mogelijk begrijpen.
Het wordt nu als het haarlemmerolie wondermiddel gebracht zodat je niet meer hoeft na te denken over
- welke data echt nodig is, de dataminimalisatie wordt ondergraven.
- welke bewaartermijnen van toepassing zijn. De dataminimalisatie wordt ondergraven.
- wie waarvoor de data nodig heeft. de security met alle toegang tot wat nodig is wordt ondergraven.
Het is makkelijk voor de managers om zich te verschuilen achter de interen leverancier die zegt dat daarmee aan de GDPR voldaan is. Ja mijn voelhorens hebben opgevangen dat de belastingdienst dat ook gaat doen. Kunnen ze eindelijk weer onbeperkt data verzamelen. Parkeergegevens ANPR van de politie energiegebruik etc. het maakt niet uit want alles is gepseudonimiseerd.
Is dat wat je probeert aan te geven?
Ik ben voorstanden van privacy en dat is dataminimalisatie. Daarmee ben ik tegen die gemakkelijke insteek van afschuiven.
Als je de data-analyse doet (profilering als je wilt opspelen) dan heb je veel kenmerkende (te selecteren) en veel normale gegevens (niet selecteren) nodig met de hints wat het model moet gaan doen. Dan heb je na de training (programmering) een validatie (programmatest) voordat je het verder gaat met schaduw draaien (keten systeem acceptatie test).
Dat is allemaal met productiegegevens omdat de data de sturing geeft en niet een menselijk verzonnen beslisboom
Hier wringt het voor de cobol/java getrainde programmeurs. Die denken in een functioneel ontwerp waarbij verzonnen data gebruikt kan worden.
Om het nog lastiger te maken het modelleren werkt standaard enkel op enkele records, de data analist moet het 5nf snowflake of DV model eerst omvormen naar zoiets. dan moet hij alle basis koppelingen leggen. Een datum/tijd heeft een tijdsverloop ofwel duur dan zul je basiselementen moeten transformeren en zie de pseudonimisatie gaat dan niet meer.
Kern: big data werkt met echte productiedata nooit met fake data. Je zult daar goed mee moeten omgaan.