Dagelijks worden meer dan 90.000.000.000 (90 miljard) spamberichten verstuurd. Omdat spammers ook lukraak e-mailadressen verzinnen wordt het overgrote deel verstuurd naar niet bestaande adressen. Een grote en onnodige belasting van de computers van thuisgebruikers en bedrijven. Het bestrijden van spam is dus belangrijk. Niet alleen door de overbelasting van computers en netwerken, maar ook door de irritatie die het oproept bij gebruikers, en de tijd die men kwijt is bij het (handmatig) behandelen van spam.
Waarom verstuurd men spam als iedereen zich hieraan ergert? Spammers claimen dat wanneer 0,001% tot 0,01% van de verstuurde spam een response oplevert, ze de kosten er uit hebben. Uit onderzoek blijkt dat 5% van de ontvangers daadwerkelijk een aankoop doet bij de spammer. Spamfilters moeten dus 5.000x tot 50.000x beter worden dan dat ze nu al zijn, om spammen financieel niet meer aantrekkelijk te maken.
Spammers vs Spamfilters
Momenteel is 90% van alle mailboxen in de wereld voorzien van een spamfilter - hetzij door de internet provider (ISP) of door gebruikers zelf geplaatst. Een redelijk goed spamfilter houdt 90% van de spam tegen. Dit betekent dat effectief 80% van de spam wordt tegenhouden en 20% de inbox bereikt. Spammers hoeven dus 5x beter hun best doen om de inbox van alle mailboxen in de wereld te bereiken.
Stel dat de spamfilters op deze mailboxen verbeteren, en dat ze 99% van alle spam tegenhouden. Dan wordt effectief bijna 90% van de spam geblokkeerd.
Dit betekent dat spammers 2x beter moeten worden (dan ze nu al zijn) om deze spamfilters te verslaan.
Stel dat alle mailboxen in de wereld (100%) worden voorzien van spamfilters. Dan wordt effectief 96% van de spam tegengehouden. Dan moeten spammers 5x beter worden dan ze nu al zijn.
Stel dat alle mailboxen in de wereld worden voorzien van de beste spamfilters, dat dus 99% van alle spamberichten wordt geblokeerd. Dan moeten spammers 20x beter worden dan ze nu al zijn.
Hoe verhogen spammers hun volume?
De vraag is dus: hoe lastig is het voor spammers om 5 tot 20x het volume te versturen van wat ze nu versturen? Overigens, de ontwikkeling van technologie werkt in het voordeel van de spammer. We geven hier drie voorbeelden:
De conclusie is duidelijk: spammers hoeven dus slechts geduld te hebben:
Met andere woorden: spam gaat voorlopig niet weg!
Bayesian Poisoning
Bayesian-filtering is een statistische analyse van e-mailbericht waarbij de mogelijkheid bestaat het filter te leren wat wel en géén spam is. Een Bayesian filter kan leren te kijken naar woorden in de tekst en het onderwerp, de headers, maar ook zaken zoals HTML code, combinaties van woorden en zinnen en meta informatie (waar een bepaalde zin bijvoorbeeld voorkomt). Een woord als Viagra komt bijvoorbeeld veel voor in spamberichten, maar niet in legitieme (ham) e-mail. Het filter weet dit niet van tevoren, maar kan dit wel leren. De volgende keer dat een bericht met het woord Viagra verschijnt weet het filter dit en zal het als spam bestempelen.
Spammers voegen tegenwoordig grote hoeveelheden legitieme tekst (bijvoorbeeld passages uit boeken) toe aan hun berichten:
Omdat het bericht hierdoor de inbox bereikt zal de gebruiker het bericht willen leren (bestempelen als spam), om te zorgen dat volgende spamberichten niet meer binnenkomen. Bijna alle spamfilters hebben hiervoor een knop.
Omdat het Bayesian leerproces het gehele bericht leert worden ook de legitieme woorden en zinnen bestempeld als spam. Dit verhoogt de kans dat legitieme berichten als spam worden bestempeld en dus zogenaamde false positives in de hand werkt. Om het aantal false positives terug te dringen zet de gebruiker zijn filter dan maar minder strikt. Hierdoor heeft de spammer weer meer kans gekregen om door te dringen tot de inbox van de gebruiker. Een vicieuze cirkel.
Probing
Momenteel worden veel spamberichten verstuurd waar eigenlijk niets in wordt aangeboden. Dit zijn zogenaamde probes. Deze worden gebruikt om te kijken of het bericht überhaupt aankomt. De spammer weet dan dat het adres bestaat (er komt geen undelivered bericht terug).
Natuurlijk hebben spammers zelf ook (deze) spamfilters. Dus als een paar dagen na het versturen van het spambericht deze ineens niet meer door de eigen spamfilter komt (de ontvanger heeft het bericht bestempeld als spam), dan weet de spammer dat de geadresseerde bestaat. De spammer kan deze gebruiken in zijn volgende echte spam-run. Mocht de ontvanger alleen (of tevens) een Bayesian spamfilter gebruiken, dan heeft de spammer ook bereikt dat deze database verder vervuild is geraakt. Dit soort spam is zeer moeilijk te stoppen omdat er zeer weinig aanknopingspunten zijn. Vaak bestaat de e-mail uit slechts één zin of slechts enkele woorden.
Hashcash
Om legitieme e-mail van spam te onderscheiden moet elk bericht onderworpen worden aan het spamfilter. Met Hashcash is het mogelijk om sneller en eenvoudiger legitieme e-mail te herkennen.
Het principe van het vrij beschikbare Hashcash berust op het feit dat de afzender een investering in rekentijd moet doen die door de ontvanger eenvoudig gecontroleerd kan worden. Bij het versturen van elk e-mailbericht, moet de verzender een rekensommetje maken dat enige tijd kost.
Een spammer wil deze berekening niet doen omdat deze dan niet genoeg berichten kan versturen om de gewenste effectiviteit te behalen. Je pakt de spammer aan op zijn inkomsten van de spam (minder gespamd = minder inkomsten).
Werking
Met Hashcash wordt een extra header door de versturende partij aan het e-mailbericht toegevoegd. De zogenaamde postzegel. Bijvoorbeeld:
X-Hashcash: 1:22:070507:mark@surfright.nl::8BD6F813DBAC51A4:001B954EAls de ontvanger de SHA-1 hash (160 bits) waarde hierover berekent dan zijn de eerste 22 bits 0. De ontvanger weet hierdoor dat de verzender tijd heeft besteed om de Hashcash te berekenen.
In het maken van een Hashcash-header gaat de tijd zitten. Men stelt het begin van de Hashcash waarde samen (oranje gedeelte) door:
Vervolgens volgt een waarde (blauwe gedeelte) die telkens opgehoogd wordt totdat de SHA 1 hash over de hele gehele waarde begint met 22 0-bits.
Het berekenen van een 22-bits Hashcash duurt op een 2GHz machine zo’n 1 a 2 seconden (gemiddeld 222 / 2 iteraties). De tijd die nodig is om een dergelijke Hash collision te berekenen verloopt dus exponentieel met het aantal 0-bits.
Mochten spammers besluiten Hashcash postzegels gaan gebruiken zullen de computers die onderdeel zijn van een botnet (zombie-pc's) nog eens extra opvallen door hun continu hoge processorbelasting.
Normaal moeten fabrikanten van e-mailprogramma's en spamfilters de ondersteuning voor een postzegel als Hashcash implementeren. Deze fabrikanten maken echter onderling geen afspraken, of verzinnen zelf een eigen variant, terwijl grote spamfilters al wel de open-sourcestandaard Hashcash gebruiken. Veel providers gebruiken het filter SpamAssassin, welke sinds 2004 al overweg kan met Hashcash.
Microsoft Office Outlook 2007 en Microsoft Exchange 2007 hanteren een eigen poststempel genaamd E-Mail Postmark, die niet publiekelijk beschikbaar is. Hierdoor moet zowel de versturende als ontvangende partij over een van deze twee producten beschikken.
Door Erik Loman en Mark Loman van SurfRight.
Deze posting is gelocked. Reageren is niet meer mogelijk.