image

Spamfilter redt oude boeken van ondergang

donderdag 4 oktober 2007, 10:07 door Redactie, 6 reacties

Een spamfilter dat moet voorkomen dat spamberichten op websites verschijnen redt oude boeken en manuscripten van de ondergang. De meeste CAPTCHA's (Completely Automated Turing Test To Tell Computers and Humans Apart) laten de gebruiker een code invoeren, iets wat voor geautomatiseerde bots lastig te doen is. Veel consumenten vinden de CAPTCHA's vervelend, omdat de codes vaak moeilijk te lezen zijn. Een onderzoeksteam uit Pittsburgh heeft nu een manier gevonden om CAPTCHA's vriendelijker voor gebruikers te maken, en de input tevens zinnig te gebruiken.

Het team houdt zich bezig met het digitaliseren van oude boeken en manuscripten, en gebruikt Optical Character Recognition (OCR) software om de gescande afbeeldingen in tekst om te zetten. De OCR software kan echter één op de tien woorden vanwege de slechte kwaliteit van het document niet lezen.

De enige betrouwbare manier om ze te decoderen is een mens ze te laten lezen, een gigantische taak, omdat er maandelijks duizenden pagina's worden verwerkt. Om dit probleem op te lossen gebruikt men de woorden die de OCR software niet kan lezen als CAPTCHA's. De reCAPTCHAs laten twee woorden zien, waarvan er één bekend is. Geeft de gebruiker de juiste omschrijving van dit woord, dan gaan de onderzoekers ervan uit dat dit ook het voor onbekende, tweede woord geldt. Om ervoor te zorgen dat mensen het systeem niet kunnen vervuilen laat men de onbekende woorden door meerdere mensen beoordelen.

Reacties (6)
04-10-2007, 10:20 door Anoniem
Erg inventief en bruikbaar. Het lijkt me alleen moeilijk om misbruik te
voorkomen, er zijn altijd wel weer mensen die het op de een of andere
manier weten te verzieken.
04-10-2007, 10:33 door Anoniem
Leuk initiatief, goed bedacht!

Ik ga zeker even kijken hoe ik hier aan kan deelnemen...
04-10-2007, 10:56 door awesselius
Aan de ene kant snap ik het wel, aan de andere kant ook weer
niet. Ik denk namelijk dat je naast dit innovatieve project
ook prima een Wiki kunt gebruiken.

Laat mensen meer een aantal pagina's aanpassen als ze daar
zin in hebben. En ja, ook Wikipedia bijvoorbeeld heeft te
kampen met vervuiling, maar dat is altijd nog na te gaan.

Het merendeel is namelijk prima te verwerken via zo'n Wiki.
En als je de overige delen door zo'n CAPTCHA laat verwerken,
dan kom je een heel eind.

Woordje voor woordje wat je niet kunt scannen allemaal door
zo'n CAPTCHA halen kan nog heel lang duren denk ik.

Wel slim bedacht. Op meer vlakken inzetbaar....

- Unomi -
04-10-2007, 11:42 door wizzkizz
Op zich een nuttige techniek. Alleen jammer dat dit "nieuws"
al maanden oud is:
http://tweakers.net/nieuws/47710/nieuwe-captcha-techniek-helpt-bij-digitaliseren-van-boeken.html
04-10-2007, 11:48 door Arno Nimus
Erg betrouwbaar is het ook niet. Ik heb het 3x geprobeerd
met verkeerde input (1x was het ook gewoon écht onleesbaar!)
waarvan ik er 2 met succes heb gepasseerd.

[url=http://mailhide.recaptcha.net/d?k=012SudBCA4YMAV41du7b_2vA==&c=3LL2Wa4kp6zvTu9348yd06AhYn9jVhDmte9q8sT8No8=]Check![/url]
04-10-2007, 20:22 door SirDice
Door incompatible
Erg betrouwbaar is het ook niet. Ik heb het 3x geprobeerd
met verkeerde input (1x was het ook gewoon écht onleesbaar!)
waarvan ik er 2 met succes heb gepasseerd.
Om ervoor te zorgen dat mensen het systeem niet
kunnen vervuilen laat men de onbekende woorden door meerdere
mensen beoordelen.

Of gaat het om het kunnen passeren van de CAPTCHA?
Reageren

Deze posting is gelocked. Reageren is niet meer mogelijk.