image

TransIP stopt tijdelijk met HashCheckService wegens onterecht verwijderen afbeeldingen

dinsdag 8 juni 2021, 17:22 door Redactie, 8 reacties

Hostingprovider TransIP heeft besloten om de HashCheckService die servers scant op de aanwezigheid van kindermisbruikmateriaal tijdelijk uit te schakelen nadat WordPress-afbeeldingen onterecht als het gewraakte materiaal waren aangemerkt en daardoor mogelijk bij klanten zijn verwijderd.

Via de HashCheckService, die wordt aangeboden door het Expertisebureau Online Kindermisbruik (EOKM), kunnen internetbedrijven en hostingproviders aan de hand van hashes controleren of er kinderpornografisch materiaal op hun servers staat. De database van de HashCheckService bevat meer dan 3,2 miljoen hashes van bekend online kinderpornografisch beeldmateriaal.

Door middel van een API (application programming interface) kunnen providers de database benaderen en kijken of de hashes van bestanden op hun servers overeenkomen met de hashes van de database. TransIP maakte de HashCheckService vorig jaar beschikbaar voor klanten. Die kunnen zo, wanneer ze de service inschakelen, hun webhostingserver laten scannen op de aanwezigheid van kindermisbruikmateriaal.

De hashes waarvan de dienst gebruikmaakt zijn afkomstig van de Nationale Politie, Interpol en het National Center for Missing & Exploited Children. "De database wordt continu aangevuld door internationale politieorganen, waarbij er nu ondanks meervoudige controle een serie standaardafbeeldingen van WordPress-installaties en plugins is meegenomen", laat TransIP in een e-mail aan klanten weten.

Hierdoor zijn deze WordPress-afbeeldingen aangemerkt als kindermisbruikmateriaal en kunnen zo bij een scan automatisch worden verwijderd. "Het gaat hier met nadruk niet om persoonlijke afbeeldingen. Het betreft afbeeldingen die automatisch worden aangevuld door WordPress bij het uitvoeren van updates. We adviseren je dan ook om te kijken of je deze handmatig kunt uitvoeren", aldus TransIP.

Vanwege het incident heeft de hostingprovider besloten om het gebruik van de HashCheckService voorlopig in zijn geheel te pauzeren. "De garanties op de integriteit van de data vanuit het EOKM blijken onvoldoende. Hierover zijn wij met hen in overleg, maar totdat hier een oplossing voor komt laten wij de service uitgeschakeld. Dit betekent dat wij in de tussentijd niet je webhostingpakket(ten) kunnen scannen", maakt de provider duidelijk.

Reacties (8)
08-06-2021, 17:47 door Anoniem
Hoewel het uiteraard (zeer vaak) zal voorkomen dat 2 bestanden dezelfde hash opleveren, komt het in de praktijk toch
niet zo vaak voor. Is er iemand bezig geweest om die EOKM database met opzet te vervuilen door bestanden te
verspreiden met "toevallig" dezelfde hash als veel gebruikte bestanden waar niks mee aan de hand is, en op die
manier deze service onbruikbaar te maken?

Ik ben er niet in gedoken hoe die database werkt maar ik denk dat als ik zelf zo iets moest bouwen dat ik dan ook
bijvoorbeeld de lengte van het bestand zou bewaren zodat er meer checks mogelijk zijn dan alleen een hash.

En dan nog zal het voor het beoogde doel niet erg goed werken want iemand die weet dat er dit soort scans gedaan
worden die kan heel simpel een bestand zodanig aanpassen dat het een andere hash geeft terwijl er aan het plaatje
niks verandert. M.a.w. nog meer kans op false negatives dan er (kennelijk) al is op false positives.
08-06-2021, 18:49 door Anoniem
Het EOKM heeft een vervuilde database. Waarschijnlijk is er een hele kinderpornosite van het darkweb doorheengetrokken, en draaide die kinderpornosite op WordPress.

Dus moet het EOKM een backup terugzetten, of alle 3,2 miljoen kinderpornoafbeeldingen opnieuw bekijken en beoordelen.

Niet zo handig dit.
09-06-2021, 00:09 door Anoniem
Door Anoniem:

Dus moet het EOKM een backup terugzetten, of alle 3,2 miljoen kinderpornoafbeeldingen opnieuw bekijken en beoordelen.

Niet zo handig dit.

Of ze bekijken welke afbeelding onbedoeld worden verwijderd en verwijderen daarna de hashes van die afbeeldingen, dat is vast sneller.
09-06-2021, 01:18 door Anoniem
Door Anoniem: Hoewel het uiteraard (zeer vaak) zal voorkomen dat 2 bestanden dezelfde hash opleveren, komt het in de praktijk toch
niet zo vaak voor. Is er iemand bezig geweest om die EOKM database met opzet te vervuilen door bestanden te
verspreiden met "toevallig" dezelfde hash als veel gebruikte bestanden waar niks mee aan de hand is, en op die
manier deze service onbruikbaar te maken?

Ik ben er niet in gedoken hoe die database werkt maar ik denk dat als ik zelf zo iets moest bouwen dat ik dan ook
bijvoorbeeld de lengte van het bestand zou bewaren zodat er meer checks mogelijk zijn dan alleen een hash.

En dan nog zal het voor het beoogde doel niet erg goed werken want iemand die weet dat er dit soort scans gedaan
worden die kan heel simpel een bestand zodanig aanpassen dat het een andere hash geeft terwijl er aan het plaatje
niks verandert. M.a.w. nog meer kans op false negatives dan er (kennelijk) al is op false positives.

ik weet niet wat je bedoeld te zeggen, maar je eerste opmerking: dat 2 bestanden dezelfde hash opleveren is natuurlijk niet juist. Er vanuit gaande dat ze geen depreciated hashfunctie gebruiken en ook niet een gedeelte van de afbeelding hashen is het (nagenoeg) onmogelijk dat een hash een false positive oplevert. Dit kan alleen maar als ze het bronmateriaal ongecontroleerd van een server trekken en met grote stappen snel thuis even hashen en aan de database toevoegen. Het zou dus ook nog zo kunnen zijn dat ze niet de hele bestanden hashen maar een een gedeelte (bijvoorbeeld de eerste Kb, dan ben je nog sneller thuis) in dat geval neemt de kans toe dat er bij grote datasets toch hash collision optreedt

Op mij komt dit over als een ernstige mate van amateurisme van de bovenste plank, of wel onnauwkeurig werken of niet snappen what hashen inhoud.
09-06-2021, 11:24 door Reinder
Door Anoniem: Hoewel het uiteraard (zeer vaak) zal voorkomen dat 2 bestanden dezelfde hash opleveren, komt het in de praktijk toch niet zo vaak voor.

Neen, integendeel zelfs: de kans op een "collision", d.w.z twee verschillende afbeeldingen die beide dezelfde hash hebben is uitermate klein, je praat dan over orders van grootte als 1 op de 10 tot de macht 30 of zo (of het nu 10^30 of 10 tot de macht iets anders is, is niet zo relevant, het is een verwaarloosbaar kleine kans).

Wat er, en dit is puur speculatie, gebeurt kan zijn is dat er een of andere bron was die op Wordpress draaide waar dergelijke afbeeldingen op stonden die in het geheel die database in is geslurpt, en dat daarbij per abuis ook anderssoortige afbeeldingen van het onderliggende Wordpress platform zijn meegenomen.
09-06-2021, 14:32 door Anoniem
Door Anoniem: ik weet niet wat je bedoeld te zeggen, maar je eerste opmerking: dat 2 bestanden dezelfde hash opleveren is natuurlijk niet juist. Er vanuit gaande dat ze geen depreciated hashfunctie gebruiken en ook niet een gedeelte van de afbeelding hashen is het (nagenoeg) onmogelijk dat een hash een false positive oplevert.
Volgens de uitleg van TransIP waar het artikel naar linkt gebruikt de database MD5, waarvan al in 1996 duidelijk van werd dat het geen stand zou houden.

Ik denk echter dat dat niet per se uitmaakt voor deze toepassing. Het is om deze controle te omzeilen namelijk helemaal niet nodig om een bestand te produceren met een hash waarvan bekend is dat hij veilig is, het is alleen maar nodig om een bestand te produceren met een hash die niet in de database staat, en dat is bij grafische afbeeldingen kinderlijk eenvoudig, véél eenvoudiger dan een hash collision produceren voor welk hashalgoritme dan ook. Deze controle richt zich duidelijk op het laaghangende fruit, bestanden die al bekend zijn en waar geen bit aan is veranderd.

Het is, welke hashfunctie ook wordt gebruikt, wel belangrijk dat er geen vervuiling in de database zit. En als die erin zit moet die weer opgeschoond worden. Niet door alle afbeeldingen stuk voor stuk opnieuw te gaan bekijken, zoals hierboven gesuggereerd is, maar door actief van afbeeldingen die in producten als Wordpress en Wordpress-plugins worden meegeleverd MD5-hashes te bepalen en bij overeenkomsten die te inspecteren en te verwijderen. Als toch blijkt dat doelbewust afbeeldingen worden gemaakt met bekende hashes dan is er natuurlijk meer nodig dan een MD5-sum om het onderscheid te maken.
09-06-2021, 19:34 door Anoniem
Door Anoniem: Het is, welke hashfunctie ook wordt gebruikt, wel belangrijk dat er geen vervuiling in de database zit. En als die erin zit moet die weer opgeschoond worden. Niet door alle afbeeldingen stuk voor stuk opnieuw te gaan bekijken, zoals hierboven gesuggereerd is, maar door actief van afbeeldingen die in producten als Wordpress en Wordpress-plugins worden meegeleverd MD5-hashes te bepalen en bij overeenkomsten die te inspecteren en te verwijderen. Als toch blijkt dat doelbewust afbeeldingen worden gemaakt met bekende hashes dan is er natuurlijk meer nodig dan een MD5-sum om het onderscheid te maken.

Als HashCheckService false positives blijft geven in de toekomst, dan is het snel gedaan met het draagvlak voor deze technologie. En daar zijn uiteindelijk kinderen de dupe van en niet het bedrijf dat deze technologie levert aan hostingbedrijven.

Een andere oplossing dan die je geeft zou zijn om per MD5-hash meerdere velden toe te staan. Dus [MD5hash][is wordpress afbeelding][is kinderporno][is auto][etc]. Maar als je een goede hash zou gebruiken dan zou dit niet nodig zijn omdat elke afbeelding niet zal colliden met elke andere afbeelding. Bij het huidige systeem van HashCheckService bepaalt de eerste registratie of iets kinderporno is of niet. Door met whitelisting te gaan werken geef je dus criminelen de mogelijkheid hun kinderporno te whitelisten zoals je aangeeft.

Anoniem 18:49
11-06-2021, 22:12 door Anoniem
Als 't idd MD5 is zou je als crimineel natuurlijk, in een poging dit systeem te omzeilen, kunnen proberen je plaatjes te verbergen door ze middels een hash-collision-tool een MD5-hash van onschuldige, veel voorkomende bestanden te geven...
Reageren

Deze posting is gelocked. Reageren is niet meer mogelijk.