Was muss alles in eine robots.txt? So gibst du Suchmaschinen klare Anweisungen

Die robots.txt-Datei ist ein kleines, aber mächtiges Textdokument, das im Wurzelverzeichnis einer Webseite liegt. Ihre Hauptaufgabe ist es, Suchmaschinen-Crawlern – also den kleinen Programmen, die das Internet unermüdlich nach neuen und aktualisierten Inhalten durchsuchen – mitzuteilen, welche Bereiche einer Webseite sie besuchen und indexieren dürfen und welche nicht. Man könnte sie als eine Art digitalen Türsteher für Bots wie den Googlebot oder Bingbot betrachten. Eine korrekt konfigurierte robots.txt ist ein fundamentaler Baustein für eine erfolgreiche Suchmaschinenoptimierung (SEO). Sie hilft nicht nur dabei, das sogenannte Crawl-Budget – die Ressourcen, die eine Suchmaschine für das Durchsuchen einer Webseite aufwendet – effizient zu nutzen, sondern verhindert auch, dass unwichtige oder doppelte Inhalte in den Suchindex gelangen und so möglicherweise das Ranking der wichtigen Seiten verwässern. Obwohl ihre Syntax relativ einfach ist, können Fehler in der robots.txt weitreichende Folgen haben, bis hin zur kompletten Deindexierung wichtiger Seitenteile. Daher ist ein grundlegendes Verständnis ihrer Funktionsweise und der korrekten Befehle unerlässlich für jeden Webseitenbetreiber. In diesem Beitrag beleuchten wir detailliert, welche Anweisungen in eine robots.txt gehören, wie sie strukturiert ist und welche Fallstricke es zu vermeiden gilt, damit Suchmaschinen Ihre Webseite optimal erfassen können.
Das Wichtigste auf einen Blick
Die robots.txt-Datei ist eine Textdatei im Stammverzeichnis Ihrer Webseite, die Suchmaschinen-Crawlern Anweisungen gibt, welche Bereiche gecrawlt werden dürfen und welche nicht. Sie ist entscheidend für die Steuerung des Crawl-Verhaltens und die Optimierung des Crawl-Budgets. Eine korrekte Konfiguration verhindert das Indexieren irrelevanter Inhalte und unterstützt Suchmaschinen dabei, die Struktur Ihrer Seite besser zu verstehen, insbesondere durch die Angabe einer Sitemap. Wichtig ist zu verstehen, dass die robots.txt auf der Kooperation der Crawler basiert und keine echte Sicherheitsmaßnahme darstellt, um Inhalte vor Zugriff zu schützen. Fehler in dieser Datei können dazu führen, dass wichtige Seiten nicht indexiert werden oder Suchmaschinen unnötig Ressourcen auf unwichtige Bereiche verwenden. Daher ist Sorgfalt bei der Erstellung und regelmäßige Überprüfung unerlässlich.
- Zweck: Steuert den Zugriff von Suchmaschinen-Crawlern auf Webseitenbereiche.
- Platzierung: Muss exakt `robots.txt` heißen und im Root-Verzeichnis der Domain liegen.
- Format: Einfache Textdatei, UTF-8 kodiert.
- Kernbefehle: `User-agent`, `Disallow`, `Allow`.
- Sitemap-Angabe: Empfohlen, um Crawlern den Weg zur XML-Sitemap zu weisen.
- Wichtigkeit für SEO: Hilft bei der Verwaltung des Crawl-Budgets und verhindert Indexierung unerwünschter Inhalte.
- Keine Sicherheitsfunktion: Blockiert keine Zugriffe böswilliger Bots und schützt sensible Daten nicht.
Robots.txt Generator & Builder
Erstelle eine robots.txt Datei für deine Website mit diesem einfachen Werkzeug.
- Konfiguriere deine Website-Einstellungen
- Füge Regeln für Suchmaschinen-Bots hinzu
- Generiere und kopiere den Code für deine robots.txt
Website-Einstellungen
https://deinewebsite.de/sitemap.xml
Vorlagen für Anfänger
- Standard-Vorlage: Blockiert Admin-Bereiche und schützt sensible Dateien
- Datenschutz-Vorlage: Blockiert private Inhalte und schützt persönliche Daten
- SEO-Vorlage: Optimiert für bessere Suchmaschinen-Ergebnisse
Regeln hinzufügen
- – Gesamte Website
- – Admin-Bereich
- – WordPress Admin-Bereich
- – WordPress Inhalte
- – Alle PDF-Dateien
- – Alles im “private” Ordner
- – Suchseite
Zusätzliche Anweisungen (optional)
Robots.txt einfach erklärt: Zweck und Funktionsweise für deine Webseite
Stellen Sie sich die robots.txt-Datei als eine Art Hausordnung für Besucher vor – nur dass die Besucher in diesem Fall Suchmaschinen-Crawler (auch Bots oder Spider genannt) sind und das Haus Ihre Webseite ist. Diese kleine Textdatei, die immer im Hauptverzeichnis (Root) Ihrer Domain liegen muss (z.B. `www.ihredomain.de/robots.txt`), gibt diesen Bots klare Anweisungen, welche Türen sie öffnen und welche Räume sie betreten dürfen. Der Hauptzweck ist also die Steuerung des Crawling-Verhaltens. Warum ist das wichtig? Nun, Suchmaschinen wie Google haben begrenzte Ressourcen, um das riesige Internet zu durchforsten. Dieses sogenannte Crawl-Budget möchten Sie als Webseitenbetreiber natürlich möglichst effizient für Ihre wichtigsten Inhalte nutzen lassen. Durch das Ausschließen von irrelevanten Bereichen (z.B. Admin-Logins, interne Suchergebnisseiten, doppelte Inhalte) helfen Sie den Crawlern, sich auf das Wesentliche zu konzentrieren. Das kann indirekt zu einer besseren Indexierung und potenziell zu besseren Rankings führen. Es ist jedoch entscheidend zu verstehen, dass die robots.txt auf Freiwilligkeit basiert: Seriöse Crawler wie Googlebot halten sich an die Anweisungen, bösartige Bots oder solche, die nicht dem Standard folgen, können sie ignorieren. Sie ist also kein Mittel, um Inhalte sicher zu verbergen.
- Kommunikationsmittel: Dient als standardisierte Schnittstelle zwischen Webserver und Suchmaschinen-Crawlern.
- Exakter Dateiname und Ort: Muss `robots.txt` heißen (alles klein) und im Stammverzeichnis der jeweiligen (Sub-)Domain liegen.
- UTF-8 Kodierung: Die Datei sollte als UTF-8 Textdatei gespeichert werden, um Kompatibilitätsprobleme mit Sonderzeichen zu vermeiden.
- Prinzip der Freiwilligkeit: “Gute” Bots (z.B. Googlebot, Bingbot) respektieren die Anweisungen. Andere, insbesondere bösartige Bots, können sie ignorieren.
- Crawl-Budget-Optimierung: Hilft Suchmaschinen, ihre Ressourcen auf die wichtigsten Seiten Ihrer Website zu konzentrieren.
- Vermeidung der Indexierung unerwünschter Inhalte: Verhindert, dass z.B. Testseiten, Admin-Bereiche oder Duplicate Content in den Suchindex gelangen.
- Protokoll- und Host-spezifisch: Eine robots.txt gilt nur für den Host (Domain/Subdomain) und das Protokoll (http/https), auf dem sie liegt. `http://example.com/robots.txt` ist also verschieden von `https://example.com/robots.txt`.
Die Funktionsweise ist dabei recht geradlinig: Bevor ein Crawler eine Seite Ihrer Domain besucht, prüft er, ob eine `robots.txt`-Datei vorhanden ist. Findet er eine, liest er die für ihn relevanten Anweisungen (definiert durch den `User-agent`) und befolgt diese. Gibt es keine `robots.txt`, gehen die meisten Crawler davon aus, dass sie alles crawlen dürfen. Die Anweisungen in der Datei bestehen aus Regelblöcken, die jeweils mit einer `User-agent`-Zeile beginnen und dann `Disallow`- oder `Allow`-Anweisungen enthalten. Eine falsche Syntax oder ein Tippfehler kann dazu führen, dass die Regeln falsch interpretiert werden oder die gesamte Datei ignoriert wird. Daher ist Sorgfalt bei der Erstellung oberstes Gebot. Es ist auch wichtig zu wissen, dass eine `Disallow`-Anweisung in der robots.txt zwar das Crawlen verhindert, aber nicht zwingend die Indexierung, falls die Seite von anderer Stelle verlinkt ist. Für ein echtes Verhindern der Indexierung sind Meta-Tags wie `noindex` die zuverlässigere Methode, aber die Seite muss dafür natürlich gecrawlt werden dürfen.

Die wichtigsten Befehle: User-agent, Disallow, Allow und ihre Anwendung
Das Herzstück jeder robots.txt-Datei sind ihre Befehle, mit denen Sie präzise steuern können, welcher Crawler welche Bereiche Ihrer Webseite besuchen darf. Die Syntax ist dabei standardisiert und relativ einfach zu erlernen. Jede Anweisungsgruppe beginnt typischerweise mit der `User-agent`-Zeile. Diese Zeile spezifiziert, für welchen Webcrawler (Bot) die nachfolgenden `Disallow`- oder `Allow`-Regeln gelten sollen. Man kann Regeln für alle Bots global festlegen, indem man ein Sternchen (`*`) als User-Agent verwendet, oder spezifische Anweisungen für einzelne Crawler wie `Googlebot`, `Bingbot` oder andere definieren. Nach der `User-agent`-Definition folgen dann die eigentlichen Zugriffsregeln. Der `Disallow`-Befehl verbietet den Zugriff auf einen bestimmten Pfad, eine Datei oder ein Verzeichnis. Umgekehrt erlaubt der `Allow`-Befehl explizit den Zugriff, was besonders nützlich ist, um Ausnahmen innerhalb eines eigentlich gesperrten Bereichs zu definieren. Die korrekte Anwendung dieser Befehle ist entscheidend, um Suchmaschinen effektiv zu lenken und gleichzeitig sicherzustellen, dass keine wichtigen Inhalte versehentlich blockiert werden. Ein leeres `Disallow:` bedeutet beispielsweise, dass alles erlaubt ist, während ein `Disallow: /` alles verbieten würde – ein Fehler, den es unbedingt zu vermeiden gilt.
Ein typischer Block in einer robots.txt könnte so aussehen:
User-agent: Googlebot
Disallow: /private/
Disallow: /tmp/
Allow: /private/public-document.html
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Befehl | Syntax-Beispiel | Erklärung |
---|---|---|
User-agent |
User-agent: Googlebot User-agent: * |
Definiert, für welchen spezifischen Crawler (z.B. Googlebot) oder für alle Crawler (* ) die nachfolgenden Regeln gelten. Pro User-Agent wird ein eigener Block erstellt. |
Disallow |
Disallow: /geheim/ Disallow: /datei.pdf |
Verbietet dem spezifizierten User-Agent das Crawlen des angegebenen Pfads oder der Datei. Pfade beginnen mit einem Slash `/` und beziehen sich auf das Root-Verzeichnis. |
Allow |
Allow: /geheim/oeffentlich/ |
Erlaubt dem spezifizierten User-Agent explizit das Crawlen des angegebenen Pfads, auch wenn ein übergeordneter Pfad per Disallow gesperrt ist. Nützlich für Ausnahmen. |
Disallow: (leer) |
Disallow: |
Ein leeres Disallow bedeutet, dass dem spezifizierten User-Agent das Crawlen aller Inhalte erlaubt ist. Dies ist die Standardeinstellung, wenn keine spezifischen Disallow -Regeln vorhanden sind. |
# (Kommentar) |
# Dies ist ein Kommentar |
Zeilen, die mit einer Raute (# ) beginnen, werden von Crawlern ignoriert und dienen als Kommentare für menschliche Leser zur besseren Verständlichkeit der Datei. |
Bei der Anwendung dieser Befehle ist die Reihenfolge und Spezifität wichtig. Crawler lesen die Datei von oben nach unten und wenden die Regeln an, die auf ihren User-Agent-String passen. Bei mehreren Blöcken für denselben User-Agent oder bei der Verwendung von `*` und spezifischen Agenten, nehmen die meisten Crawler den spezifischsten passenden Block. Innerhalb eines Blocks können sich `Allow`- und `Disallow`-Regeln gegenseitig beeinflussen. Google und Bing geben beispielsweise der längsten passenden Regel Vorrang – eine `Allow`-Regel für `/verzeichnis/unterverzeichnis/` würde also eine `Disallow`-Regel für `/verzeichnis/` für diesen spezifischen Pfad überschreiben. Es ist ratsam, mit möglichst wenigen und klaren Regeln zu arbeiten. Ein häufiges Szenario ist das Sperren eines gesamten Verzeichnisses (`Disallow: /intern/`) und das anschließende Freigeben einer einzelnen Datei oder eines Unterverzeichnisses darin (`Allow: /intern/wichtig.html`). Denken Sie daran, dass Pfadangaben nach `Disallow` und `Allow` case-sensitive sein können, abhängig von der Serverkonfiguration. Es ist daher sicherer, die Schreibweise exakt so zu verwenden, wie sie in den URLs vorkommt.
Sitemap & mehr: Welche zusätzlichen Angaben in deiner robots.txt sinnvoll sind
Neben den grundlegenden Befehlen `User-agent`, `Disallow` und `Allow` gibt es weitere Direktiven und Konventionen, die in einer robots.txt-Datei verwendet werden können, um die Kommunikation mit Suchmaschinen-Crawlern zu verfeinern. Die wohl wichtigste und am häufigsten genutzte zusätzliche Angabe ist die `Sitemap`-Direktive. Indem Sie den Pfad zu Ihrer XML-Sitemap (oder mehreren Sitemaps) angeben, erleichtern Sie es Suchmaschinen wie Google und Bing, alle relevanten URLs Ihrer Webseite zu entdecken und deren Struktur besser zu verstehen. Dies ist besonders hilfreich für große Webseiten, neue Webseiten oder Seiten mit komplexen Navigationsstrukturen. Die Angabe erfolgt einfach durch `Sitemap: https://www.deinedomain.de/sitemap.xml`. Es können auch mehrere Sitemap-Einträge vorhanden sein. Eine weitere, wenn auch seltener und nicht von allen Crawlern unterstützte Direktive ist `Crawl-delay`. Diese Anweisung bittet Crawler, eine bestimmte Anzahl von Sekunden zwischen den einzelnen Zugriffen auf den Server zu warten, um eine Überlastung zu vermeiden. Googlebot ignoriert diese Direktive mittlerweile, aber andere Crawler wie Bingbot berücksichtigen sie unter Umständen. Für eine präzisere Steuerung der `Disallow`- und `Allow`-Regeln können zudem Platzhalter verwendet werden.
Zusätzliche Direktiven und ihre Nützlichkeit
Über die Kernbefehle hinaus kann Ihre robots.txt durch weitere Angaben an Aussagekraft gewinnen. Die Sitemap-Angabe ist dabei fast schon ein Muss, um Suchmaschinen die vollständige Struktur Ihrer Inhalte zu präsentieren. Andere Direktiven wie Crawl-Delay oder die Nutzung von Platzhaltern bieten feinere Kontrollmöglichkeiten, sollten aber mit Bedacht eingesetzt werden.
Sitemap: [URL zur sitemap.xml]
– Informiert Crawler über den oder die Speicherorte der XML-Sitemap(s). Dies ist eine stark empfohlene Angabe. Beispiel:Sitemap: https://www.example.com/sitemap_index.xml
Crawl-delay: [Sekunden]
– Bittet Crawler, eine Pause zwischen den Seitenabrufen einzulegen. Googlebot ignoriert dies, Bing und andere können es berücksichtigen. Beispiel:User-agent: Bingbot Crawl-delay: 10
- Platzhalter
*
(Sternchen): Steht für eine beliebige Zeichenfolge (null oder mehr Zeichen). Nützlich, um Muster abzugleichen. Beispiel: `Disallow: /privat/*.php` blockiert alle PHP-Dateien im Ordner `/privat/`. - Platzhalter
$
(Dollarzeichen): Markiert das Ende einer URL/eines Pfads. Nützlich, um Regeln spezifischer zu machen. Beispiel: `Disallow: /*.pdf$` blockiert URLs, die exakt auf `.pdf` enden. - Kommentare mit
#
: Ermöglichen es, Anmerkungen für menschliche Leser in die Datei einzufügen, die von Crawlern ignoriert werden. Dies erhöht die Wartbarkeit und Verständlichkeit.
Die Verwendung von Platzhaltern kann die robots.txt erheblich verkürzen und flexibler gestalten. Das Sternchen `*` fungiert als Wildcard für eine beliebige Zeichenkette. Möchten Sie beispielsweise alle Dateien eines bestimmten Typs, sagen wir mal PDF-Dateien, in einem bestimmten Verzeichnis sperren, könnten Sie schreiben: `Disallow: /dokumente/*.pdf`. Das Dollarzeichen `$` am Ende einer Regel signalisiert, dass die URL exakt mit dem angegebenen String enden muss. `Disallow: /verzeichnis/seite$` würde also `/verzeichnis/seite` blockieren, nicht aber `/verzeichnis/seite-weiter.html`. Die Kombination dieser Platzhalter ermöglicht sehr spezifische Anweisungen. Kommentare, eingeleitet durch ein `#`-Zeichen, sind zwar für die Crawler irrelevant, aber für Menschen, die die Datei später bearbeiten oder verstehen müssen, Gold wert. Sie können genutzt werden, um zu erklären, warum bestimmte Regeln existieren oder um die Datei zu strukturieren. Es ist gute Praxis, zumindest komplexe oder nicht offensichtliche Regeln zu kommentieren. Denken Sie daran, dass nicht alle Crawler alle erweiterten Funktionen oder Platzhalter gleich interpretieren. Die Grundfunktionen (`User-agent`, `Disallow`, `Allow`, `Sitemap`) sind jedoch weithin standardisiert und werden von den großen Suchmaschinen zuverlässig unterstützt.

Häufige Fehler: Was du beim Schreiben deiner robots.txt vermeiden solltest
Die robots.txt-Datei ist zwar klein, aber ihre Wirkung kann enorm sein – im positiven wie im negativen Sinne. Ein kleiner Tippfehler oder eine falsch interpretierte Regel kann dazu führen, dass wichtige Teile Ihrer Webseite von Suchmaschinen ignoriert werden oder umgekehrt, dass Bereiche gecrawlt werden, die privat bleiben sollten (obwohl, wie betont, die robots.txt keine Sicherheitsmaßnahme ist). Einer der häufigsten Fehler ist schlichtweg der Dateiname oder die Platzierung. Die Datei muss exakt `robots.txt` (alles kleingeschrieben) heißen und im Stammverzeichnis (Root) der Domain liegen. Eine `Robots.TXT` oder eine Datei in einem Unterverzeichnis wird von den Crawlern nicht gefunden. Ebenso kritisch sind Syntaxfehler: Ein fehlender Doppelpunkt nach `User-agent` oder `Disallow`, ein falsches Leerzeichen oder die Verwechslung von `Allow` und `Disallow` können die gesamte Regel oder sogar die ganze Datei unbrauchbar machen. Besonders gefährlich ist ein übereifriges `Disallow: /`, das die gesamte Webseite für Crawler sperrt. Auch das versehentliche Blockieren von CSS- oder JavaScript-Dateien, die für das korrekte Rendering der Seite notwendig sind, kann dazu führen, dass Google die Seite nicht richtig interpretieren und bewerten kann.
- Tippfehler im Dateinamen oder falsche Groß-/Kleinschreibung: Es muss `robots.txt` sein, nicht `robot.txt` oder `Robots.txt`.
- Falsche Platzierung: Die Datei muss im Root-Verzeichnis der Domain/Subdomain liegen (z.B. `https://www.example.com/robots.txt`), nicht in Unterordnern.
- Syntaxfehler: Fehlende Doppelpunkte, falsche Befehle, ungültige Zeichen. Jeder Fehler kann dazu führen, dass Regeln ignoriert werden.
# FALSCH:
User-agent Googlebot
Disallow /admin
# RICHTIG:
User-agent: Googlebot
Disallow: /admin/
- Versehentliches Blockieren wichtiger Inhalte: Ein zu allgemeines `Disallow: /verzeichnis/` kann auch Unterverzeichnisse sperren, die gecrawlt werden sollen. Ein `Disallow: /` sperrt die gesamte Seite.
- Blockieren von CSS/JS-Ressourcen: Wenn für das Rendering wichtige Ressourcen blockiert werden, kann Google die Seite nicht korrekt darstellen und verstehen.
- Konflikt zwischen physischer und virtueller robots.txt (WordPress-Problem): Viele Content-Management-Systeme wie WordPress erzeugen eine “virtuelle” robots.txt, wenn keine physische Datei im Root-Verzeichnis vorhanden ist. Dies kann zu Verwirrung führen, insbesondere wenn diese virtuelle Datei fehlerhaft ist oder nicht den gewünschten Inhalt hat. Das vom Nutzer beschriebene Problem, dass die Google Search Console Sitemaps als blockiert meldet, obwohl die (vermutlich virtuelle) robots.txt korrekt erscheint, deutet stark auf solch einen Konflikt oder ein Caching-Problem hin. Oft ist die Lösung, eine eigene, korrekte physische `robots.txt` im Root-Verzeichnis anzulegen, da diese in der Regel Vorrang hat.
- Verwechslung mit Sicherheitsmechanismen: Die robots.txt verhindert nicht den Zugriff auf sensible Daten, da sie von böswilligen Bots ignoriert werden kann und die URLs trotzdem bekannt werden können. Hierfür sind Passwortschutz oder `noindex`-Meta-Tags (wenn die Seite nicht gecrawlt werden soll, aber auch nicht indexiert) notwendig.
- Groß-/Kleinschreibung in Pfaden (Case Sensitivity): Pfade in `Disallow`- und `Allow`-Anweisungen sind oft case-sensitive. `Disallow: /Ordner/` ist nicht dasselbe wie `Disallow: /ordner/`. Es ist am besten, die Schreibweise exakt wie in den URLs zu verwenden.
- Byte Order Mark (BOM): Einige Texteditoren fügen am Anfang einer UTF-8-Datei eine Byte Order Mark ein. Google empfiehlt, diese zu vermeiden, da sie Probleme verursachen kann.
Das im Eingangstext geschilderte Problem eines Nutzers mit von der robots.txt blockierten Sitemaps, obwohl die Datei scheinbar korrekt ist, ist ein klassisches Beispiel für die Tücken, die auftreten können. Die Vermutung, dass eine virtuelle robots.txt von WordPress die Ursache ist, ist sehr plausibel. WordPress generiert dynamisch eine robots.txt, wenn keine physische Datei im Root-Verzeichnis liegt. Diese virtuelle Datei kann Standardeinstellungen enthalten, die möglicherweise nicht optimal sind oder, im schlimmsten Fall, fehlerhaft werden (z.B. durch Plugin-Konflikte oder Updates). Wenn der Nutzer nun eine Sitemap über ein SEO-Plugin wie Rank Math einreicht und die (virtuelle) robots.txt den Zugriff auf diese Sitemap oder die darin enthaltenen URLs blockiert, meldet die Google Search Console korrekterweise einen Fehler. Die Lösung besteht meist darin, eine eigene, physische `robots.txt`-Datei im Root-Verzeichnis des Servers anzulegen. Diese überschreibt in der Regel die virtuelle Datei. Der Inhalt der virtuellen Datei kann oft als Ausgangspunkt dienen, sollte aber genau geprüft und angepasst werden. Es ist auch wichtig sicherzustellen, dass die Sitemap-URL selbst nicht durch eine `Disallow`-Regel blockiert wird. Manchmal können auch Caching-Mechanismen auf Server- oder CDN-Ebene dazu führen, dass eine veraltete Version der robots.txt ausgeliefert wird, was ebenfalls zu solchen Fehlermeldungen führen kann.

Deine robots.txt erstellen und testen: Eine praktische Kurzanleitung
Nachdem die Theorie nun klarer ist, geht es an die praktische Umsetzung. Das Erstellen oder Anpassen einer robots.txt-Datei ist kein Hexenwerk, erfordert aber Sorgfalt und ein systematisches Vorgehen. Zunächst sollten Sie sich überlegen, welche Bereiche Ihrer Webseite tatsächlich von Suchmaschinen ignoriert werden sollen. Typische Kandidaten sind Administrationsbereiche, interne Suchergebnisseiten, Warenkörbe, Nutzerprofile oder bestimmte Dateitypen, die nicht für die Öffentlichkeit bestimmt sind oder keinen Mehrwert im Suchindex bieten. Es ist oft besser, mit einer sehr offenen robots.txt zu starten (die wenig bis nichts blockiert) und dann gezielt Bereiche auszuschließen, als versehentlich zu viel zu sperren. Denken Sie daran: Jede Subdomain (z.B. `blog.example.com`) benötigt ihre eigene robots.txt-Datei im jeweiligen Root-Verzeichnis, falls sie separate Anweisungen erhalten soll. Die Datei selbst ist eine einfache Textdatei, die Sie mit jedem Texteditor erstellen können. Wichtig ist die korrekte Benennung und Platzierung sowie die UTF-8-Kodierung ohne BOM (Byte Order Mark).
Schritt-für-Schritt zur funktionierenden robots.txt
Die Erstellung und Implementierung einer robots.txt ist ein klar definierter Prozess. Mit den richtigen Werkzeugen und einer sorgfältigen Vorgehensweise stellen Sie sicher, dass Suchmaschinen Ihre Webseite wie gewünscht crawlen.
- 1. Bedarfsanalyse: Identifizieren Sie Bereiche, die nicht gecrawlt werden sollen (z.B. Admin-Bereiche, doppelte Inhalte, unwichtige Skripte, temporäre Dateien). Überlegen Sie, welche User-Agents Sie spezifisch ansprechen wollen.
- 2. Datei erstellen: Öffnen Sie einen einfachen Texteditor (z.B. Notepad unter Windows, TextEdit unter macOS im reinen Textmodus, oder IDEs wie VS Code).
- 3. Anweisungen schreiben: Fügen Sie die `User-agent`-, `Disallow`-, `Allow`- und `Sitemap`-Direktiven gemäß Ihren Anforderungen ein. Beginnen Sie einfach, z.B. mit:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://www.ihredomain.de/sitemap.xml
- 4. Speichern als `robots.txt`: Achten Sie auf den exakten Namen (Kleinschreibung) und die Kodierung (UTF-8 ohne BOM).
- 5. Hochladen ins Root-Verzeichnis: Übertragen Sie die Datei per FTP-Client (z.B. FileZilla) oder über das Dateimanagement-Tool Ihres Webhosters in das Stammverzeichnis Ihrer Webseite (oft `public_html`, `www`, `htdocs` oder ähnlich).
- 6. Überprüfung im Browser: Rufen Sie `https://www.ihredomain.de/robots.txt` auf, um sicherzustellen, dass die Datei korrekt angezeigt wird.
- 7. Testen mit Tools: Nutzen Sie den robots.txt-Tester in der Google Search Console. Geben Sie URLs Ihrer Seite ein, um zu prüfen, ob sie wie erwartet blockiert oder erlaubt werden. Überprüfen Sie auch auf Warnungen oder Fehler.
- 8. Regelmäßige Überprüfung und Anpassung: Webseiten ändern sich. Überprüfen Sie Ihre robots.txt regelmäßig, besonders nach größeren Umbauten oder wenn Sie neue Bereiche hinzufügen, die nicht gecrawlt werden sollen.
Das Testen der robots.txt ist ein absolut kritischer Schritt. Die Google Search Console bietet hierfür ein sehr nützliches Werkzeug: den robots.txt-Tester. Sie finden ihn unter “Crawling” bzw. in der neuen Search Console unter “Einstellungen” -> “Crawling-Statistiken öffnen” -> “Host-Einstellungen” (hier wird die aktuell von Google verwendete robots.txt angezeigt und man kann sie testen). Mit diesem Tool können Sie Ihre hochgeladene robots.txt-Datei direkt von Google analysieren lassen. Es zeigt Ihnen Syntaxfehler oder Warnungen an und ermöglicht es Ihnen, spezifische URLs Ihrer Webseite einzugeben, um zu sehen, ob diese durch die aktuellen Regeln blockiert würden oder nicht – und von welcher Regel genau. Dies ist extrem hilfreich, um sicherzustellen, dass Sie nicht versehentlich wichtige Seiten blockieren. Testen Sie verschiedene User-Agents (Googlebot, Googlebot-Image etc.), um das Verhalten zu verifizieren. Wenn Sie, wie im Nutzerbeispiel erwähnt, Probleme haben, dass Sitemaps als blockiert gemeldet werden, obwohl die robots.txt korrekt zu sein scheint, prüfen Sie im Tester explizit die URL der Sitemap-Datei selbst und einige Beispiel-URLs aus der Sitemap. Manchmal sind es Caching-Probleme (Browser-Cache, Server-Cache, CDN-Cache), die dazu führen, dass eine alte Version der robots.txt noch aktiv ist. Es kann einige Zeit dauern, bis Google Änderungen an der robots.txt erkennt und verarbeitet. Bei hartnäckigen Problemen, bei denen die Search Console eine Blockade meldet, die robots.txt aber definitiv korrekt ist und auch aktuell von Google abgerufen wird (ersichtlich im Tester), könnten auch serverseitige Firewalls oder .htaccess-Regeln den Zugriff von Google auf die Sitemap oder die URLs behindern, was dann fälschlicherweise als robots.txt-Blockade interpretiert werden könnte.