Ultimas Toolbox
Tools zur Website Optimierung.

Die Syntax der Robots.txt

Die robots.txt ist ein Standard der den Zugriff eines Crawler auf eine Website regeln soll. Diese Datei muss "robots.txt" genannt werden und im Rootverzeichnis einer Website liegen. Crawler rufen als erstes diese Datei ab und werten Sie aus. Dies gilt nur für gutmütige Crawler, Spambots ignorieren diesen Standard, diese Datei bietet also keinen wirklichen Schutz für wichtige Daten!

Anweisungen:

Diese Anweisungen bilden den Kern der robots.txt und werden von allen Crawlern die die robots.txt auswerten verstanden.

User-Agent

User-agent: Googlebot

Diese Anweisung bestimmt den Crawler, für den die nachfolgenden Anweisungen zutreffen. Wichtige Werte sind zum Beispiel: Ask.com, Googlebot Yahoo! Slurp, msnbot oder *. Der Asterisk (*) ist das Wildcardzeichen für alle Crawler.

Disallow

Disallow: /
Disallow: /example.html

Mit Disallow werden Verzeichnisse oder Datei zum durchsuchen gesperrt.

#

# Ein Kommentar

Mit der Raute (#) werden Kommentare eingeleitet. Alle nachfolgenden Anweisungen werden bis zum Zeilenende ignoriert.

Weitere Anweisungen:

Diese Anweisungen werden nicht von allen Bots Unterstützt.

Allow

Allow: /
Allow: /example.html

Durch Allow werden Dateien und Verzeichnisse zum Durchsuchen frei gegeben. Nur Ask.com Googlebot Yahoo! Slurp, msnbot.

Sitemap

Sitemap: http://toolbox.ultima-project.net/sitemap.xml

Hiermit wird einen Crawler die Adresse zu einer Sitemap mitgeteilt. Die Adresse muss absolut sein mit Protokoll (http, https, ..) und Domainnamen, eine relative Angabe ist ungültig. Diese Anweisung unterliegt keinem User-agent, man sollte jedoch darauf achten das sie für alle Crawler zugänglich ist (User-agent: *). Nur Googlebot Yahoo! Slurp, msnbot , Ask.com.

Crawl-delay

Crawl-delay: 60

Hier wird angegeben wieviel Zeit zwischen jedem Aufruf vergehen muss, diese Zeit wird in Sekunden angegeben. Nur Yahoo! Slurp, msnbot.

Ein Beispiel für eine robots.txt:

# Für alle Crawler
User-agent: *
# Zugriff auf alle Verzeichnisse gewähren
Disalow:
# Zugriff auf /images/ sperren
Disallow: /images/

# URI zur XML Sitemap
Sitemap: http://www.example.com/sitemap.xml

# Den Zugriff auf /images/ für Google gewähren
User-agent: googlebot-image
Allow: /images/

Validatoren:

Quellen: