Via het bestand robots.txt kunnen websites aangeven dat zoekmachines bepaalde bestanden of directories niet mogen indexeren, maar dit kan aanvallers echter ook op interessante informatie wijzen. Het gebruik van robots.txt als verkenning voor aanvallen is al zeer lang bekend. Toch zijn er nog steeds tal van websites die allerlei interessante informatie in dit bestand laten staan, zo ontdekte een Franse onderzoeker.
Hij analyseerde bijna 60.000 websites, waarvan er 35.000 een geldig robots.txt-bestand leken te bevatten. In de tekstbestanden ontdekte hij allerlei interessante zaken, zoals een opmerking om foto's van gestalkte studenten niet te indexeren, waarbij een link naar een afbeelding was opgenomen. Ook vond hij allerlei admin- en beheerdersdirectories die verborgen moesten blijven, alsmede allerlei Word-documenten.
De onderzoeker concludeert dan ook dat het gebruik van robots.txt niet zonder gevolgen is. "In het eenvoudigste geval onthult het afgeschermde paden en de technologie die je servers gebruiken. Maar met verder onderzoek kun je content vinden die er niet hoort te staan." Beheerders moeten er dan ook niet vanuit gaan dat robots.txt alleen door robots en crawlers wordt gelezen merkt hij op.
Deze posting is gelocked. Reageren is niet meer mogelijk.