Directe link naar deze reactie:
https://security.nl/posting/797615.
@Anoniem 25-05-2023, 13:18: dank voor jouw reactie! Voorstanders van CSS zullen aanvoeren dat kinderen ook het (grond-) recht hebben om niet te worden misbruikt (dat zullen weinigen betwisten, ik in elk geval niet) - maar zien niet in dat dat CSS niet gaat helpen tegen kindermisbruik: integendeel.
Ook kunnen voorstanders van CSS claimen dat er helemaal geen sprake is van "afluisteren/bespieden
altijd en bij iedereen": immers, het is software op jouw device die dat doet.
Uitsluitend als jij (bekende of zelfs nieuwe) beelden van kindermisbruik probeert te verzenden, zou die software alarm slaan. Maar ook dat klopt niet: er wordt namelijk niet van
cryptografische hashes gebruik gemaakt om "foute beelden" te detecteren, maar -voor zover ik weet- van "Neural hashes" (ook bekend als PhotoDNA of Perceptual hashes). En die werken totaal anders dan cryptografische hashes.
Hieronder heb ik mijn gedachten en bevindingen hierover zoveel mogelijk op een rijtje gezet. Daarmee is het een extreem lang verhaal geworden, maar hiermee staat veel informatie voor de geïnteresseerde lezer bij elkaar.
Cryptografische versus Neurale hashfunctiesBij het gebruik van een voldoende lange cryptografische hash en redelijke gedetailleerde foto's (met een voldoende pixels) zullen valspositieven (een andere foto die toevallig dezelfde hash oplevert, een
cryptografische hash collission) gigantisch zeldzaam zijn. Probleem: de kleinste wijziging van (of toevoeging aan) een fotobestand leidt tot een andere cryptografische hash - zonder dat je daar iets van hoeft te zien op het beeld.
De
aanname is dat kwaadwillenden bewust foto's van kindermisbruik zullen bewerken om detectie te voorkómen (wijzigingen kunnen ook onbewust plaatsvinden, bijv. doordat apps automatisch de resolutie verlagen en/of de "lossy conpression" van beelden verhogen om de bestandsgrootte te verkleinen).
Reeks van kleine getallen per fotoOm ondanks wijzigingen een foto toch te kunnen "herkennen", wordt een "perceptual hash" gebruikt die "kijkt" naar het
beeld, de
bitmap van een foto. Meestal wordt gebruik gemaakt van een Discrete Cosine Transform (
https://en.wikipedia.org/wiki/Discrete_cosine_transform) waarbij, sterk vereenvoudigd, de foto in kleine blokjes wordt opgesplitst en van elk blokje een representatief getal wordt afgeleid.
Gebruikelijk is het om die kleine getallen in hexadecimale vorm achter elkaar te plakken, waardoor het resultaat
lijkt op een cryptografische hash - maar dat echt niet is. Effectief is het een reeks bits die je kunt vergelijken met de reeks van elk van de bekende "foute" plaatjes.
Van zo'n reeks kun je bovendien aangeven hoeveel bits er mogen afwijken van het origineel (die afwijking wordt de "Hamming distance" genoemd:
https://en.wikipedia.org/wiki/Hamming_distance). Zoiets is overigens ondenkbaar bij cryptografische hashes, omdat een kleine wijziging van de input tot een onvoorspelbare wijziging van de
gehele output leidt.
Begrijpelijke uitleg van neural hashes, oftewel "fuzzy matching", vind je in
https://medium.com/@darwinium/image-similarity-pdq-algorithm-for-real-time-similarity-comparison-against-image-store-2a73452b2bfa. Daaruit:
Transformations that result in similar hashes include: File format change, Quality reduction, Resizing, Rotations and Mirrors (when additional hashes compared), Noise or Filter applied, Small Crops and Shifts, Light Watermarks and Logos.
Niet kiezen tussen twee kwaden: je krijgt beideDe kwaden hier zijn valspositieven
én valsnegatieven. De lengte (het aantal bits) van de (neurale) hash ligt meestal vast, maar je kunt de Hamming distance wel kiezen. Hoe groter de Hamming distance, hoe meer een beeld mag afwijken van het origineel om toch nog te kunnen "zien" dat het om een bewerking van het origineel gaat. Maar ook hoe meer valspositieven je krijgt.
Je moet dus een balans vinden tussen:
• Enerzijds een "te groot" aantal valsnegatieven (beeld met kindermisbruik
niet herkend door beperkte beeldmanipulatie, zoals cropping, verlagen van de resolutie, radicale wijzigingen buiten het "interessante" deel en degelijke), en
• Anderzijds een "te groot" aantal valspositieven (beeld zonder kindermisbruik heeft toevallig een neurale hash met acceptabele Hamming distance t.o.v. de neurale hash van een verboden plaatje).
0,01 procent valspositieven?Ik heb ondertussen verder gegraven in de Tweede Kamerstukken over CSS. De volgende pagina geeft een duidelijk overzicht:
https://www.tweedekamer.nl/vergaderingen/plenaire_vergaderingen/details/activiteit?id=2022A10091. Uit die "overzichtpagina":
3 - Antwoorden op vragen commissie over uitvoering van de motie van het lid Van Raan c.s. over end-to-endencryptie in stand houden (Kamerstuk 26643-885)In december vorig jaar hebben Kamerleden vragen gesteld. Als je drukt op (+) vóór "26643-968 Brief regering d.d. 31 januari 2023 [...]" zie je "
2023D03477 Verslag van een schriftelijk overleg over uitvoering van de motie van het lid Van Raan c.s. over end-to-endencryptie in stand houden (Kamerstuk 26643-885)" dat je als PDF kunt downloaden.
Uit die PDF met antwoorden van de Minister (vette opmaak door mij):
Bij het geautomatiseerd controleren van berichten op materiaal van seksueel kindermisbruik kan het aantal vals positieven, indien nodig, tot een zeer laag percentage (bijvoorbeeld 0.01 procent) worden gebracht.
Het lijkt er dus sterk op dat de EC van veel hoger percentage uitgaat, en de Minister met "0.01 procent" een theoretische ondergrens aangeeft.
Voor de detectie van bekend materiaal van seksueel kindermisbruik levert een dergelijk rigide standaard geen problemen op. Echter, voor onbekend materiaal van seksueel kindermisbruik zou een dergelijke standaard in de praktijk betekenen dat dit type materiaal maar marginaal wordt gedetecteerd.
Rigide? Want?
Neural hashes zijn ongeschikt voor het detecteren van "onbekend materiaal". Voor zover ik weet is er nog geen AI-technologie beschikbaar waarmee (ook op oudere) smartphones (seksueel) kindermisbruik kan worden onderscheiden van foto's waarop bijv. een naakt kind te zien is, d.w.z. zonder dat sprake is van enig misbruik of andere kwade bedoelingen. Dat naast hoe zo'n algoritme zou moeten weten hoe oud dat kind is (vooral als er geen hoofd te zien is, of als de afbeelding van dat hoofd is vervangen). Wat mij betreft is dit wishful thinking - of helemaal geen thinking.
Indien gewenst is dat een aanzienlijk deel van het online seksueel kindermisbruik ook daadwerkelijk gedetecteerd wordt, zal bij het geautomatiseerd controleren van berichten op onbekend materiaal van seksueel kindermisbruik significante hoeveelheden vals positieven te verwachten zijn. {10}
{10}: Anders gezegd is hier sprake van communicerende vaten, waarbij vooraf ingestelde marge vals-positieven (bijvoorbeeld: het gedetecteerde materiaal mag maximaal 0,01 procent vals positieven bevatten) bepalend is voor de detectiegraad van materiaal van seksueel kindermisbruik: hoe strenger de marge wordt ingesteld, hoe lager de detectiegraad zal zijn.
De Minister laat na om te vermelden dat het hier gaat om de detectiegraad van
bestaand, doch
bewerkt beeldmateriaal. Er wordt voortdurend een veel te positief beeld geschetst van bestaande technologie, of er wordt uitgegaan van (door de wetenschap niet verwachte) spectaculaire verbeteringen.
Mede hierom wordt door de Commissie, naast technische oplossingen om de effecten van vals positieven te verminderen, in haar voorstel aanbevolen om deze negatieve effecten te ondervangen middels oprichting van een Europees centrum. Met dit centrum wordt onder andere beoogd te voorkomen dat deze vals positieven de wetshandhavers bereiken en meer focus kan worden bereikt ten aan zien van de gevallen die hen wel bereiken.
Hoezo zijn mensen die foute van goede beelden moeten onderscheiden geen "wetshandhavers"? Welke kwalificaties en screeningen moeten zij hebben om te voorkómen dat potentieel zeer vertrouwelijk beeldmateriaal in verkeerde handen valt en wordt misbruikt (notabene kinderen die naaktbeelden delen met mensen die zij terecht vertrouwen, kunnen hiermee worden afgeperst) en/of "gaat zwerven"?
Ook kan het centrum optreden als schakel naar de dienstaanbieders en hen van de nodige informatie voorzien. Tenslotte kan het centrum de rechtshandhaving noodzakelijke inzichten bieden door, onder andere, betrouwbare statistieken te genereren met betrekking tot seksueel kindermisbruik.
Hoezo "betrouwbare statistieken" "met betrekking tot seksueel kindermisbruik" - aan de hand van het aantal
opnieuw gedeelde
oude beelden (van hetzelfde misbruik) of zo? Wat zijn dit voor drogredenen?
Bizar vind ik ook dat geen enkel kamerlid de vragen stelde die wetenschappers stellen (en die ik hier stel, en al eerder stelde). Het lijkt er sterk op dat niemand van hen hier goed over nadenkt en/of zich er stevig in verdiept.
Aantal valspositieven per dag in EuropaWellicht klinkt 0,01% weinig, maar uit
https://photutorial.com/photos-statistics/:
• Users share the most images on WhatsApp: 6.9 billion per day. 1.3 billion images are shared on Instagram daily, with about 100 million in posts and more than 1 billion on stories and chats.
0,01% van 6,9 miljard is 690.000 foto's per dag (alleen van WhatApp) - maar dat is grotendeels buiten de EU. Wereldwijd zou WhatsApp meer dan 2 miljard gebruikers hebben; bron: Google
whatsap user count (waarvan ruwweg een kwart in India; bron:
https://www.bbc.com/news/world-asia-india-65481930).
Aan de hand van
https://www.statista.com/statistics/880842/number-of-whatsapp-users-in-the-netherlands/,
https://www.statista.com/statistics/1005178/share-population-using-whatsapp-europe/ en
https://www.statista.com/statistics/253372/total-population-of-the-european-union-eu/ schat ik (ruw) dat zo'n 65% van 467 miljoen Europeanen WhatsApp gebruikt = ca. 300 miljoen Europeanen, dus ca. 1/7 van het totale aantal WhatsApp gebruikers.
Als de verdeling van het aantal verzonden foto's per WhatsApp-gebruiker gelijkmatig is over de wereld, zou je, voor de EU, op ca. 1 miljard foto's per dag komen. Bij 0,01% false positives zullen er, van
alle handmatig te controleren foto's door het "Europese centrum",
100.000 foto's per dag als geen kindermisbruik beoordeeld moeten worden.
Dat zijn
VÉÉL valspositieven. Dat heeft gevolgen voor het aantal onjuiste beoordelingen en op de kans op datalekken.
Het is veel ergerIk ben niet de enige die het risico van veel te veel valspositieven ziet. In de blog
https://cpg.doc.ic.ac.uk/blog/deephash-not-robust-to-detection-avoidance/ (publicatie:
https://arxiv.org/abs/2106.09820) laten (de in een eerdere reactie hierboven genoemde) onderzoekers van het Imperial College London zien dat je, om al te eenvoudig bewerkte beelden te kunnen herkennen (het aantal valsnegatieven te verlagen), met een veel groter percentage valspositieven zult moeten dealen.
Hoe lang blijf je valspositief?De vraag is ook wat er gebeurt als je een foto wilt versturen die "wordt herkend", maar een valspositief is. Gaat je smartphone meteen op slot? Hoe lang moet je wachten totdat je verder kunt met je (digitale) leven of die foto kunt versturen? Zie ook
https://www.theregister.com/2022/12/16/esafety_comissioner_csea_report/.
Het wordt, na invoering, NOG ergerZodra "perverts" weten dat zij gepakt kunnen worden als zij foute beelden "appen", gaan de meesten dat natuurlijk niet meer zomaar doen. Zolang CSS uitsluitend plaatsvindt
vóór verzending door een chat-app, kun je beelden gewoon op je toestel hebben en bekijken, maar ze versleutelen voordat je ze verstuurt. Dus zal deze rat-race ertoe leiden dat
alle (user-) bestanden op apparaten worden gescand. Niet alleen "beelden", want daar zou je de bestandsextensie van kunnen wijzigen.
Dus zullen "perverts" versleutelde bestanden uitwisselen en
op een ander apparaat gaan decrypten en bekijken (bijvoorbeeld op een oude computer zonder internetconnectiviteit).
Hoewel versleutelde bestanden met eenvoudige wachtwoorden (zoals "
infected") ook niet "veilig" meer zijn (
https://arstechnica.com/information-technology/2023/05/microsoft-is-scanning-the-inside-of-password-protected-zip-files-for-malware/), zullen de meeste "perverts" uiteindelijk wel leren om sterke wachtwoorden te gebruiken.
Een oor aannaaienNaast dat je
toevallig tegen valspositieven "aan kunt lopen", is het ook relatief eenvoudig om ze zelf
te genereren (als je de neurale hash van een "bekend" CSAM-plaatje kent). Een kwaadwillende kan zo'n plaatje (dat niets met kindermisbruik te maken heeft) naar iemand sturen, en die persoon aanmoedigen om dat plaatje door te sturen. Daarmee kan mogelijk een soort DoS (Denial of Service) aanval uitgevoerd worden.
Bijvoorbeeld de volgende twee foto's leveren een
identieke neurale hash op, dus met een Hamming distance van nul:
https://github.com/AsuharietYgvar/AppleNeuralHash2ONNX/issues/1#issuecomment-903094036 (geen van beide tonen overigens kindermisbruik).
En in
https://github.com/AsuharietYgvar/AppleNeuralHash2ONNX/issues/1#issuecomment-903161868 zie je dat slechts een deel van de bits in de hashes wijzigt als je op een foto "stevige" bewerkingen uitvoert (duidelijk is dus dat deze hashes niets met cryptografische hashes te maken hebben).
Probleem: groei van de database met verboden beeldenHoe meer beelden er in die database zitten, hoe groter het aantal neurale hashes. En dat leidt er weer toe dat de kans op toevallige valspositieven toeneemt.
De kans is groot dat op korte termijn het aantal door AI gegenereerde (of gemanipuleerde) pornobeelden flink toeneemt. Hoe erg zijn door AI gegenereerde beelden - waar geen (nieuw) kindermisbruik bij heeft plaatsgevonden? Nb. in vergelijking tot beelden van
nieuw kindermisbruik, ik probeer niks goed te praten. Als we die beelden weten "te vangen" dan groeit de database.
Zo'n database kan sowieso niet onbeperkt groot worden, de opslagruinte op (vooral oudere) smartphones is beperkt, en hoewel CPU's nog steeds sneller worden, je zult van elk beeld de hash moeten vergelijken met elke hash in de database - daarbij elke keer rekening houdend met de toegestane Hamming distance.
Probleem: uitlekken van algoritme en/of DB met neural hashesVergelijkbaar met cybercriminelen die hun malware zodanig aanpassen dat deze door zo min mogelijk virusscanners wordt herkend (en dat testen door te uploaden naar Virustotal, of minder toegankelijke diensten op internet): als je
weet dat jouw CSAM-plaatje zal worden herkend, moet je er dus nog wat verder aan prutsen.
Ook algoritmes houd je zelden geheim, zie
https://www.hackerfactor.com/blog/index.php?archives/931-PhotoDNA-and-Limitations.html met trouwens veel achtergrondinfo, voorzien van plaatjes.
Verder met de politiekDe betrokken politici lijken (net als destijds bij CoronaMelder en CoronaCheck) vele aspecten -echt niet alleen technische- te negeren. Het lijkt er vooral om te gaan of "afluisteren" wel of niet acceptabel is. Zonder enige discussie over hoe effectief zij is en zal blijven, welke mensen en middelen je hiervoor nodig hebt en dus
niet meer kunt inzetten voor het effectiever bestrijden van het
kindermisbruik zelf, op welk hellend vlak je je hiermee begeeft, hoe andere, minder democratische landen buiten de EU, dit zullen aangrijpen om (een deel van hun bevolking) nog verder te bespioneren, en welke kansen deze technologie biedt voor cybercriminelen.
Terug naar de eerdergenoemde overzichtspagina:
Stenogram van "tweeminutendebat"Het stenogram (onder de bijlagen, in .docx formaat) bevat de notulen van het (korte) debat. Geeft een goede indruk van de verstandhoudingen, en dat de discussie uitsluitend over "privacy" versus opsporing gaat - en totaal niet over de effectiviteit.
4 - Moties ingediend tijdens het debatOnder punt 4 gaat het om de onderste motie die je kunt bekijken door op het plusje te drukken vóór "
26643-1011 Motie d.d. 20 april 2023 L.M. van Ginneken, Tweede Kamerlid Motie van het lid Van Ginneken c.s. Over zorgen dat het Europese voorstel geen encryptiebedreigende chatcontrol bevat".
Effectief luidt deze motie:
constaterende dat de Europese Commissie met haar voorstel COM/2022/209 inhoudelijke chatcontrol van berichten mogelijk wil maken en daarmee end-to-endencryptie en het postgeheim geweld aandoet;
constaterende dat de aangenomen motie-Van Raan c.s. (26 643, nr. 885) met betrekking tot het in stand houden van end-to-endencryptie ook voor deze wetgeving relevant is;
overwegende dat Duitsland en Oostenrijk zich nu ook hebben uitgesproken tegen chatcontrol en verklaren dat dit niet proportioneel is om alle berichten van iedereen zo maar te monitoren;
verzoekt de regering om in actieve samenspraak met andere gelijkgestemde lidstaten ervoor te zorgen dat het voorstel geen encryptiebedreigende chatcontrol bevat, zoals client-side scanning, en anders de verordening niet goed te keuren,
Deze motie is aangenomen (maar ik kon niet vinden met hoeveel stemmen vóór).
Laatste reactie van de Minister van J&VIn een brief van 8 mei (
https://www.tweedekamer.nl/downloads/document?id=2023D18765, .doc, Office 97-Office 2003 format) schrijft de Minister van Justitie en Veiligheid onder meer (vette opmaak toegevoegd door mij):
[...]
Encryptie stelt de opsporing voor grote uitdagingen. In opsporingsonderzoeken blijkt het in veel gevallen zeer lastig en soms onmogelijk om gegevens die nodig zijn om criminelen op te sporen te verkrijgen. Ook in gevallen waarin dat volgens de wet is aangewezen. Deze uitdagingen zijn vooral aan de orde bij diensten die gebruik maken van end-to-end encryptie.
[...]
Dit gebrek belemmert de opsporings- en inlichtingendiensten in hun wettelijke taak de samenleving veilig te maken. Ik deel deze zorgen en vind ik het van belang dat de mogelijkheden van de opsporing om criminaliteit tegen te gaan effectief en adequaat zijn. Om zo te voorkomen dat criminelen vrij spel hebben, onder andere bij het verspreiden van online materiaal van seksueel kindermisbruik.
[...]
Het gaat dus, zo te zien,
niet alleen om "het verspreiden van online materiaal van seksueel kindermisbruik" te beperken.
Nederland staat al jarenlang op nummer één als het gaat om het hosten van online materiaal van seksueel kindermisbruik in de Europese Unie. {2} Dat is om stil van te worden.
[...]
{2}: Zie o.a. de jaarlijkse rapporten van INHOPE (www.inhope.org) en de Internet Watch Foundation (www.iwf.org.uk).
Nee, dat is
niet om stil van te worden, dat moet je veel harder aanpakken. Maar hosting heeft niets met het uitwisselen van beelden door individuen te maken.
In Brussel pleit Nederland voor een verordening die voldoet aan de motie van het lid Van Raan c.s., die in juli vorig jaar door uw Kamer is aangenomen en die de regering verzoekt end-to-end encryptie in stand te houden en Europese voorstellen die dat onmogelijk maken niet te steunen.
Daarbij zoek ik binnen het kader van die motie en de toezegging aan uw Kamer om deze motie uit te voeren naar de mogelijkheden die er wél zijn om tot regels te komen voor een effectieve bestrijding van seksueel kindermisbruik. Want die regels zijn helaas hard nodig. Daarbij wil ik ervoor zorgen dat Nederland een positieve bijdrage levert aan de aanpak - en niet nagenoeg alleen komt te staan met een vroegtijdige afwijzing van voorstellen in de Verordening waar zich vooralsnog een grote meerderheid van Europese lidstaten achter schaart. Ik wil voorkómen dat Nederland door een vroegtijdige afwijzing van het voorstel geen betekenisvolle invloed kan uitoefenen om het voorstel te verbeteren, mede met het oog op de motie van het lid Van Raan. Immers: als de verordening wordt aangenomen, dan is Nederland daar onverkort aan gebonden.
Hier zet de Minister de Kamer het mes op de keel: ofwel je gaat akkoord met CSS, ofwel het wordt mogelijk nog veel erger (t/m een verbod op "E2EE" zoals Spanje lijkt te willen), versterkt door:
In mijn brief van 31 januari aan uw Kamer wordt client-side scanning expliciet als optie benoemd om kinderpornografisch materiaal te onderkennen. {3}
Op dit moment lijkt dit de enige manier waarop de maatregelen in de verordening kunnen worden uitgevoerd zonder end-to-end encryptie aan te tasten.
{3}: Verslag van een schriftelijk overleg over uitvoering van de motie van het lid Van Raan c.s. over end-to-endencryptie in stand houden (Kamerstuk 26 643, nrs. 885 en 908).
De Minister sluit af met:
Indien client-side scanning in geen geval kan en tegelijk end-to-end-encryptie in stand moet blijven, dan zijn er geen mogelijkheden meer over – dus oók niet met de komst van de Digital Service Act of andere juridische instrumenten waarover nog wordt onderhandeld - om materiaal van seksueel kindermisbruik te onderkennen op interpersoonlijke communicatiediensten. Het is echter bekend dat juist deze diensten in toenemende mate voor de verspreiding ervan worden misbruikt. Die situatie acht ik, mede gezien ook de onderhandelingspositie in Brussel, zacht gezegd buitengewoon onwenselijk. Daarom heb ik deze motie, met klem, ontraden.
Maar stel dat de democratie het fout heeft, en je met CSS veel foute-beelden-kijkers vindt. Gaan we die dan allemaal opsluiten (waar dan, en wie gaat dat betalen)? En tot welke afname van
daadwerkelijk kindermisbruik zal dit leiden? Denkt de EC echt dat het beter is om valspositiefscheiders in een "Europees Centrum" naar plaatjes te laten kijken, in plaats van
plegers van kindermisbruik op te sporen? En/of met veel meer educatie zoveel mogelijk "perverts" bewust te maken van het leed dat zij -indirect- veroorzaken door steeds nieuw beeldmateriaal te willen?
Waarbij CSS notabene het
vervaardigen van meer nieuw beeldmateriaal zou kunnen stimuleren, om steeds nieuwe beelden te hebben die
nog niet worden herkend?
Ik weet niet welke lobbyisten hier achter zitten, maar beleidsmakers lijken zich te hebben ingegraven op basis van geloof in sprookjes.