Robots.txt

Mit einem Textfile namens "robots.txt" kann festgelegt werden, ob und wie deine Website von einem Webcrawler (auch Robot genannt) besucht werden darf. Als Website-Betreiber hast du so die Möglichkeit, ausgesuchte Bereiche deiner Webpräsenz für (bestimmte) Suchmaschinen zu sperren.

Funktionsweise

Beim Auffinden einer Website liest der Webcrawler zuerst die Datei robots.txt. Die Datei muss dazu im Stammverzeichnis (Root) der Domain liegen und alle Buchstaben im Dateinamen müssen klein geschrieben werden (also nicht etwa "robots.TXT" oder "Robots.txt").

Das Protokoll hinter robots.txt wird als "Robots-Exclusion-Standard-Protokolls" bezeichnend. Das Protokoll ist rein "hinweisend" und somit auf die Mitarbeit des Webcrawlers angewiesen. Ein Ausgrenzen bestimmter Teile einer Webpräsenz durch das Protokoll garantiert keine Geheimhaltung. Um Zugriff auf Teile der Website zu verhindern, sind Seiten oder Unterverzeichnisse eines Servers durch HTTP-Authentifizierung, eine Access Control List (ACL) oder einen ähnlichen Mechanismus zu schützen. Manche Suchmaschinen zeigen die vom Webcrawler gefundenen URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Beschreibung der Seiten.

Weblinks

de.wikipedia.org/wiki/Robots.txt - Informationen zum Aufbau und der Syntax der robots.txt-Datei
tool.motoricerca.info/robots-checker.phtml - robots.txt-Checker

Weiterführendes

Stefan Seidner-Britting