Door Neb Poorten: Zoals je met jouw 'big data' achtergrond zou moeten weten is het op die manier proberen af te schermen van toegang tot gevoelige data een
zwaar verouderde en intrinsiek onveilige methode. Wanneer je namelijk op de een of andere manier toegang tot het bestand krijgt (zoals bij M.E.Doc door het verkrijgen van het wachtwoord van een beheerder met root privileges of - bij opslag in de cloud - door derden met andere belangen) dan kan je bij de inhoud.
Een moderne en wel werkende oplossing om toegang tot gevoelige data af te schermen is gebaseerd op Attribute Based Encryption:
Data Sharing on Untrusted Storage with Attribute-Based Encryption by Shucheng Yuhttps://web.wpi.edu/Pubs/ETD/Available/etd-071310-143310/unrestricted/Yu.pdf Het Probleem met M.E.Doc als installatie
bij de klanten is het ontbreken van elke security (shared generiek account). Die methode was in de oertijd van ICT normaal nu zwaar verouderd. En dan heb je het over een trusted strorage omgeving.
Jouw link gaat over untrusted storage en daarbij niet relevant.
De clou (zoek het kwartje): Je kan niet volledig uitsluiten dat er buiten wat mis gaat. Je kan wel zo veel mogelijk doen om de mogelijke impact te beperken. Het is leuk om M.E.DOC verder tegen het licht te houden. Belangrijker is de verspreidingsmogelijkheid structureel in te perken.
Gewoon eerst de verouderde goedkope (want het werkt) aanpak bij het vuil zetten en prio de aangewezen richtlijnen (ISo27k) gaan doen. Je die zijn ook al oud maar nooit goed geïmplementeerd, want het zou te duur.moeilijk/lastig zijn.
Lees voor dat je wat over big data zegt even
https://www.wrr.nl/publicaties/rapporten/2016/04/28/big-data-in-een-vrije-en-veilige-samenleving.
Je ziet meerder fases.
- De eerste daarvan is een data ware house opbouwen. Dat kun je nog steeds met trusted storage doen (geen cloud). Kimball Inmon Lindsted geven richtingen voor datamodellering. Het wezenlijkste bij al die richtingen is het ontbreken van een security aanpak.
- De analyse fase, zeker met R, heeft het zelfde de security houvast ontbreekt want dat zou het OS wel doen. Gewoon eerst de aangewezen richtlijnen (ISO27k) gaan doen. Je die zijn ook oud maar nooit geïmplementeerd want het zou te duur zijn.
- De gebruiksfase met terugkoppeling van het model vraagt in andere insteek dan dat ouderwetse gedoe cobol C Java (3gl). Je moet het model nog monitoren dat met het inpassen in operationele omgevingen. Ook hier weer een security richting ontbreekt. Gewoon eerst de aangewezen richtlijnen (ISO27k) gaan doen. Ook hier gaat het om gewoon trusted storage
Het lijkt haast wel 3 keer is scheepsrecht (big data).
Met de goedkope oude snel klaar klassieke aanpak staat de teller op 4 voor het niet invullen van security. Niets nieuws nodig gewoon de zaakjes eerst eens een keer goed doen. Voordat je gaat rennen moet je kunnen lopen.
Het gedoe met cloud en unstrusted storage dan zie je al de datalekken met open dataabases mongodb rsh etc. (shodan).
Je kunt dat YU terugvinden als http://nos.nl/artikel/2135155-big-data-onderzoek-naar-parkinson-met-respect-voor-privacy.html. (Zou Bart Jacobs het idee gestolen hebben?) Met 650 mensen met heel specifieke kenmerken kun je encrypten wat je wil de onderzoekers die de data hebben voor analyses zullen best in staat de terugkoppeling in principe te kunnen doen. Het beste is dat ze daar totaal geen interesse in hebben en die gegevens negeren. Dat heet ethiek.