Naast wat je direct achterlaat (ip adres, referrer, eigenlijk al veel te veel browser info, tijd), is er nogal wat indirect uit te vogelen. Provider (via whois), geolocatie (via geoip database, wisselende qualiteit), en dan heb je nog best veel verschillende aggregators (die nog meer verschillende namen hebben; bv google heeft doubleclick opgekocht en kan dus beide datasets integreren, daar zijn ze best goed in) die dan nog meer kunnen vertellen over surfpatroon. facebook en google+ gaan nog verder, want die doen dat ook plus dat ze je laten inloggen en als je dat doet (en ingelogd blijft) dan kunnen ze je naam aan dat surfgedrag hangen.
Qua directe info: Netcat draaien, browser erheen sturen, en request bekijken (oefening voor thuis). Wat een webserver zoal standaard logt is ook leuk om te bekijken natuurlijk. Qua indirecte info... moet je wat verder kijken. Laatst een bericht gezien waar zo'n dienst "hulpvaardig" maar vast je naam en dergelijke in allerlei formulieren ging stoppen.
Overigens is dat niet de eerste keer dat zoiets gebeurde. Alleen was het toen software op je eigen computer die automatisch formulieren voor je ging invullen, en toen kwamen er handigerds die heel die formulieren verborgen zetten zodat je niet doorhad dat je info weggaf. "bonzi buddy" is er eentje die ik me zo herinner, er waren er meer. Nuja, nu doen ze dat volautomatische met ajax en andere webtweepuntnultechnologieen.
Maar punt is dus: Je geeft een stuk meer data weg dan je denkt, en simpelweg uitloggen uit facebook et al is niet genoeg om het te stoppen, maar het helpt wel (een klein, klein beetje). Welkom in de wereld van big data.