Die Datei robots.txt
Worum |
Es geht um die ominöse Datei "/robots.txt", die vermutlich immer wieder in Ihren Fehlerlisten auftaucht, obwohl Sie gar keine solche Datei haben. |
Was hat es damit auf sich ? |
Eine Reihe von Spidern, dies sind Programme von Suchmaschinenbetreibern,
die das Web nach Seiten durchforsten, schauen in Ihrem Grundverzeichnis nach
der Datei "robots.txt". Diese Datei KANN Anweisungen für den Spider
(oder auch Robot genannt) enthalten, bestimmte Seiten Ihrer Präsenz
nicht zu durchsuchen, also auch nicht in die entsprechende Suchmaschine
einzutragen. Fehlt bei Ihnen die Datei "robots.txt", so ergibt die vergebliche
Suche einen Fehler 404: "Not Found" und der Spider wird in seiner "Suchwut"
nicht eingeschränkt - also normalerweise das gewünschte Resultat.
Auch mit Ihren Meta-Tags KÖNNEN Sie einem Spider expliziet verbieten, Ihre Seiten zu durchsuchen. Dazu wäre folgende Zeile erforderlich: <meta name="robots" content="noindex"> (statt "noindex" kann auch "none" verwendet werden). Auf der anderen Seite können Sie einem Spider auch ausdrücklich erlauben, nicht nur diese, sondern auch die Folgeseiten zu durchkämmen: <meta name="robots" content="follow">. Nicht jeder Spider wird sich aber von dieser Zeile beeindrucken lassen; wenn er alle Seiten durchsuchen wollte, wird er es auch ohne diese Zeile tun. Weder die Meta-Tags noch die "robots.txt" sind ganz offizielle und standardisierte Eigenschaften bzw. Befehle. Aber die meisten Spider halten sich daran. Wenn Sie so viele Suchmaschineneinträge wie nur möglich haben wollen, lassen Sie die "robots.txt" wie gehabt weg oder legen Sie eine Datei mit diesem Namen, aber ohne Inhalt an und fügen Sie die Zeile <meta name="robots" content="follow"> in Ihre "index.html" ein. Aber vielleicht wollen Sie ja die Möglichkeiten der robots.txt nutzen, um bestimmte Ihrer Seiten vor Zugriffen von bestimmten Suchmaschienen zu schützen, so können Sie auch eine eigene robots.txt (z.B. mit dem Windows Notepad) erstellen. So könnte eine robots.txt aussehen:
# DALA robots.txt vom 22.09.2000; (ist eine
Kommentarzeile)
User-agent: * # * = alle
Spider ...
User-agent: Gulliver # dieser spezielle Spider
...(Leerzeile oben nicht vergessen !)
User-agent: killer # dieser Spider
...(Leerzeile oben nicht vergessen !)
User-agent: dala-Spider 1 # dieser Spider
...(Leerzeile oben nicht vergessen !)
Erklärung: Die robots.txt-Datei müssen Sie in das Grundverzeichnis Ihrer Web-Präsenz legen. Auch die Datei "/favicon.ico" werden Sie vermutlich in Ihrer 404-Fehlerliste finden. Ist ein solches Icon nicht bei Ihnen im Grundverzeichnis vorhanden, gibt's häufig auch einen Fehler 404. |
Für wen ? |
Wenn bestimmte Bereiche Ihrer Präsenz vor den Augen der Öffentlichkeit (also den Suchmaschinen) verborgen bleiben soll, können Sie die "robots.txt"-Datei einsetzen. |