Was sollte man alles in die robots.txt eintragen?

In dieser kurzen Übersicht möchte ich aufzeigen, welche Unterordner und Dateien man mit Hilfe der robots.txt-Datei vor den Suchmaschinen-Indexierungs-Bots verstecken sollte und bei welchen man es besser lassen sollte:

 

Javascript- und CSS-Dateien?

Auf den ersten Blick erscheint es sinnvoll Unterordner wie js und css in die robots.txt einzutragen. Allerdings würde man, wenn dieser Eintrag überhaupt von den Suchmaschinen beachtet wird, dadurch das Rendering der Seite für die Seitenvorschau behindern. Dies ist also eher nicht zu empfehlen.

 

Bilddateien?

Gleiches gilt auch für Bilddateien bzw. für Ordner wie img, images, oder dergleichen. Das Crawlen lässt sich grundsätzlich nicht wirklich unterbinden, da dadurch die Seitenvorschau behindert werden würde. Lediglich das Indexieren für die Bildersuche lässt sich dadurch verhindern, wodurch man natürlich eine zusätzliche Trafficquelle verlieren würde.

 

PHP-Dateien?

Grundsätzlich sollte man PHP-Dateien von der Indexierung ausschließen, sofern diese nicht für den einzelnen Aufruf bestimmt sind, sondern nur den Content liefern oder ein Formular verarbeiten. Im Fall meiner selbst gebauten Webseiten nutze ich immer einen Front-Controller, welcher die benötigten Skripte aus einem geschützten Ordner einbindet. Insofern kann man einen solchen Ordner wie php oder includes auch von der Indexierung ausschließen. Ebenfalls einen Caching-Ordner wie tmp oder cache kann man von der Indexierung ausschließen, da die Dateien nicht direkt aufgerufen werden sollten. Im Idealfall ist auch ein solcher Ordner vor Zugriffen geschützt.

 

CGI-bin, CGI-data?

Falls der Provider diese Ordner noch für irgendwelche alten Skriptewie Gästebücher oder dergleichen  benutzt, so kann man diese Ordner ebenfalls von der Indexierung ausschließen. Ich schreibe die einfach grundsätzlich in meine robots.txt-Dateien.

 

Einzelne Seiten?

Wie in diesem Beitrag beschrieben kann es Sinn machen Seiten wie das Impressum oder die Datenschutzerklärung von der Indexierung auszuschließen, damit diese von den Bots der Abmahnanwälte nicht so leicht aufgespürt werden können.

 

Tobias Langner

Tobias Langner

Ich arbeite seit mehreren Jahren als Software-Release-Manager, zuvor als IT-Administrator, bin ausgebildeter Fachinformatiker für Systemintegration und Studium-"Pausierer" an der FernUni Hagen. Achtung: Für die Richtigkeit der zur Verfügung gestellten Informationen, Skripte, etc. übernehme ich keine Gewähr. Deren Nutzung geschieht ausdrücklich auf eigene Gefahr!

Alle Beiträge ansehen von Tobias Langner →

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert