Zuletzt aktualisiert am 17.12.2025 von Dirk Veit
Disallow in der robots.txt: So steuerst du das Crawling deiner Website
Die robots.txt ist eine der mächtigsten und gleichzeitig gefährlichsten Dateien auf deiner Website. Mit der Disallow-Direktive kannst du Suchmaschinen gezielt von bestimmten Bereichen fernhalten. Falsch eingesetzt, verschwindet deine komplette Website aus dem Google-Index.
Das passiert häufiger als du denkst. Eine falsche Zeile, ein vergessener Slash, und schon sehen potenzielle Besucher deine Seiten nicht mehr. Deshalb ist es wichtig, dass du genau verstehst, wie Disallow funktioniert, wann du es einsetzen solltest und welche Fehler du unbedingt vermeiden musst.
In diesem Ratgeber erfährst du alles über die Disallow-Anweisung: von der grundlegenden Syntax über praktische Anwendungsfälle bis hin zu den häufigsten Fehlern. Los geht’s.
Das Wichtigste in Kürze
- Disallow blockiert das Crawling: Die Direktive verhindert, dass Suchmaschinen-Crawler bestimmte URLs aufrufen. Aber: Eine blockierte URL kann trotzdem im Index landen.
- Syntax ist entscheidend: Ein fehlendes Zeichen kann dazu führen, dass deine gesamte Website gesperrt wird. Die Groß- und Kleinschreibung bei Pfaden spielt eine Rolle.
- Disallow ist kein Sicherheitsschutz: Bösartige Bots ignorieren die robots.txt. Für sensible Daten brauchst du Passwortschutz oder serverseitige Maßnahmen.
- Noindex ist oft die bessere Wahl: Wenn du verhindern willst, dass eine Seite in den Suchergebnissen erscheint, nutze den Noindex-Tag statt Disallow.
Was ist die Disallow-Direktive in der robots.txt?
Die robots.txt ist eine einfache Textdatei, die im Stammverzeichnis deiner Website liegt. Sie kommuniziert mit Suchmaschinen-Crawlern und gibt ihnen Anweisungen, welche Bereiche sie besuchen dürfen und welche nicht.
Die Disallow-Direktive ist dabei der zentrale Befehl zum Blockieren. Sie sagt dem Crawler: „Diesen Bereich darfst du nicht crawlen.“
Wichtig zu verstehen: Die robots.txt ist eine freundliche Bitte, kein Sicherheitsmechanismus. Seriöse Suchmaschinen wie Google und Bing halten sich daran. Scraper, Spam-Bots und böswillige Crawler ignorieren sie einfach.
🔍 Gut zu wissen: Die robots.txt-Datei wird unter deiner-domain.de/robots.txt aufgerufen. Sie muss im Root-Verzeichnis liegen. Eine robots.txt in einem Unterordner wird von Crawlern nicht gefunden.
Die Syntax der Disallow-Direktive
Die Syntax einer robots.txt-Datei ist einfach, aber fehleranfällig. Ein typischer Eintrag besteht aus zwei Teilen: dem User-Agent und der Disallow-Anweisung.
Das Grundformat sieht so aus:
User-agent: *
Disallow: /beispiel-verzeichnis/
Der User-Agent gibt an, welcher Crawler angesprochen wird. Das Sternchen (*) steht für alle Crawler. Die Disallow-Zeile definiert den Pfad, der nicht gecrawlt werden soll.
Die wichtigsten Regeln zur Syntax
Bei der Disallow-Direktive wird zwischen Groß- und Kleinschreibung unterschieden. Disallow: /Admin/ blockiert nicht /admin/. Außerdem sind Leerzeichen am Anfang und Ende der Zeile erlaubt, aber der Pfad selbst muss exakt stimmen.
Jede Disallow-Anweisung braucht eine eigene Zeile. Das hier funktioniert nicht:
# FALSCH - mehrere Pfade in einer Zeile
Disallow: /ordner1/ /ordner2/
So ist es richtig:
# RICHTIG - jeder Pfad in eigener Zeile
User-agent: *
Disallow: /ordner1/
Disallow: /ordner2/
⚠️ Achtung: Der Wert der User-Agent-Zeile ist nicht case-sensitive (Googlebot = googlebot). Die Pfade in der Disallow-Zeile sind aber case-sensitive!
Praktische Anwendungsfälle für Disallow
Es gibt verschiedene Szenarien, in denen Disallow sinnvoll ist. Hier sind die wichtigsten Anwendungsfälle mit konkreten Beispielen.
Die gesamte Website blockieren
Dieser Befehl sperrt deine komplette Website für alle Crawler:
User-agent: *
Disallow: /
Wann ist das sinnvoll? Eigentlich nur bei Entwicklungs- oder Staging-Umgebungen, die noch nicht live gehen sollen. Bei einem SEO-Relaunch wird diese Einstellung manchmal vorübergehend genutzt.
⚠️ Wichtig: Nach einem Relaunch wird häufig vergessen, diese Zeile zu entfernen. Das führt dazu, dass die Website aus dem Google-Index verschwindet. Ein klassischer und teurer Fehler.
Einzelne Verzeichnisse sperren
Das ist der häufigste Anwendungsfall. Du möchtest bestimmte Bereiche deiner Website vom Crawling ausschließen:
User-agent: *
Disallow: /admin/
Disallow: /temp/
Disallow: /interner-bereich/
Typische Kandidaten für die Sperrung sind Admin-Bereiche, temporäre Verzeichnisse, Staging-Seiten oder interne Dokumente.
Einzelne Dateien blockieren
Du kannst auch spezifische Dateien vom Crawling ausschließen:
User-agent: *
Disallow: /dokumente/internes-protokoll.pdf
Disallow: /seiten/alte-landingpage.html
Bestimmte Dateitypen sperren
Mit Wildcards kannst du ganze Dateitypen blockieren. Das Sternchen (*) steht als Platzhalter für beliebige Zeichen:
User-agent: *
Disallow: /*.pdf$
Disallow: /*.ppt$
Das Dollarzeichen ($) am Ende signalisiert: Die URL endet genau hier. Ohne dieses Zeichen würde auch /datei.pdf-info.html blockiert werden.
Parameter-URLs ausschließen
Viele Websites haben URLs mit Parametern, die zu Duplicate Content führen können. Mit Disallow kannst du diese ausschließen:
User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?session=
💡 Tipp: Sei vorsichtig beim Blockieren von Parameter-URLs. Manchmal sind Filter-URLs für die Navigation wichtig. Teste vorher in der Google Search Console, welche URLs tatsächlich gecrawlt werden.
Bestimmte Crawler gezielt ansprechen
Du kannst unterschiedliche Regeln für verschiedene Crawler definieren:
User-agent: Googlebot
Disallow: /nicht-fuer-google/
User-agent: Bingbot
Disallow: /nicht-fuer-bing/
User-agent: *
Disallow: /privat/
Wichtig: Wenn es eine spezifische Regel für einen Crawler gibt, ignoriert dieser die allgemeinen Regeln (User-agent: *). Der Googlebot befolgt im obigen Beispiel nur die Googlebot-Regeln, nicht die für alle anderen Crawler.
Disallow und Allow kombinieren
Die Allow-Direktive ermöglicht es, Ausnahmen innerhalb gesperrter Bereiche zu definieren. Google unterstützt diese Direktive seit langem.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Dieses Beispiel ist der WordPress-Standard: Der Admin-Bereich ist gesperrt, aber die Datei admin-ajax.php bleibt zugänglich. Diese Datei wird für bestimmte Frontend-Funktionen benötigt.
Ein weiteres Beispiel:
User-agent: *
Disallow: /bilder/
Allow: /bilder/produkte/
Hier ist das gesamte Bilder-Verzeichnis gesperrt, aber die Produktbilder dürfen gecrawlt werden.
🔍 Wie Google entscheidet: Bei widersprüchlichen Regeln verwendet Google die spezifischere Regel. Gemessen wird an der Länge des Pfads. Wenn beide gleich lang sind, wählt Google die weniger restriktive Option (Allow vor Disallow).
Die häufigsten Fehler bei Disallow
Die robots.txt sieht harmlos aus. Aber kleine Fehler können große Auswirkungen haben. Hier sind die Klassiker.
Fehler 1: Slash vergessen
Das passiert ständig und hat unterschiedliche Auswirkungen:
# PROBLEM: Kein Slash am Anfang
Disallow: verzeichnis/
# RICHTIG:
Disallow: /verzeichnis/
Ohne den führenden Slash wird die Anweisung möglicherweise nicht richtig interpretiert.
Außerdem wichtig: Ein Verzeichnis sollte mit Slash enden. Disallow: /verzeichnis blockiert auch Seiten wie /verzeichnis-neu.html, die gar nicht gemeint waren.
Fehler 2: Disallow ohne Pfad
Das hier macht nichts:
User-agent: *
Disallow:
Eine leere Disallow-Anweisung wird ignoriert. Alle Seiten bleiben zugänglich. Das ist kein Fehler an sich, aber oft ein Versehen.
Gefährlich wird es, wenn du das verwechselst mit:
User-agent: *
Disallow: /
Der einzelne Slash blockiert die gesamte Website.
Fehler 3: Wildcards falsch einsetzen
# PROBLEM: Blockiert mehr als gewollt
Disallow: /*temp
# Das blockiert auch:
# /temperaturen.html
# /temporaer-geschlossen.html
Wildcards sind mächtig, aber gefährlich. Teste immer, welche URLs tatsächlich betroffen sind.
Fehler 4: CSS und JavaScript blockieren
Ein verbreiteter Fehler bei älteren robots.txt-Dateien:
# SCHLECHT FÜR SEO:
User-agent: *
Disallow: /css/
Disallow: /js/
Google benötigt Zugriff auf CSS und JavaScript, um deine Seiten korrekt zu rendern. Wenn du diese Ressourcen blockierst, kann Google die Seite nicht richtig interpretieren. Das schadet deinem Ranking.
Fehler 5: Mehrere Pfade in einer Zeile
# FALSCH:
User-agent: *
Disallow: /ordner1/ /ordner2/ /ordner3/
# Der Crawler liest das als einen einzigen (nicht existierenden) Pfad
Fehler 6: Subdomain vergessen
Jede Subdomain braucht ihre eigene robots.txt-Datei. Eine robots.txt unter www.beispiel.de gilt nicht für shop.beispiel.de.
📁 Checkliste häufige Fehler:
- Führenden Slash bei Pfaden nicht vergessen
- Verzeichnisse mit abschließendem Slash
- Jeder Pfad in eigener Zeile
- CSS und JavaScript nicht blockieren
- Nach Relaunch Disallow: / entfernen
- Subdomains separat behandeln
Disallow vs. Noindex: Was ist der Unterschied?
Das ist einer der wichtigsten Punkte, den viele Webmaster nicht verstehen: Disallow verhindert das Crawling, nicht die Indexierung.
Was bedeutet das konkret? Wenn eine Seite per Disallow gesperrt ist, besucht Google sie nicht. Aber: Wenn andere Websites auf diese Seite verlinken, kann Google sie trotzdem in den Index aufnehmen. Die URL erscheint dann in den Suchergebnissen, allerdings ohne Snippet, nur mit dem Hinweis „Für diese Seite sind keine Informationen verfügbar.“
Das sieht nicht gut aus und hilft niemandem.
🔍 Google-Hinweis: Wenn du verhindern willst, dass eine Seite in den Suchergebnissen erscheint, nutze den Noindex-Tag. Aber: Dann darfst du die Seite nicht per Disallow blockieren! Sonst erreicht Google den Noindex-Tag nie.
Wann Disallow, wann Noindex?
| Ziel | Lösung |
|---|---|
| Seite soll nicht in Suchergebnissen erscheinen | Noindex-Tag verwenden |
| Crawl-Budget schonen | Disallow verwenden |
| Testumgebung komplett blockieren | Disallow: / |
| Sensible Daten schützen | Passwortschutz oder HTTP-Auth |
| Duplicate Content vermeiden | Canonical-Tag oder Noindex |
Crawl-Budget optimieren mit Disallow
Dein Crawl-Budget ist die Anzahl der Seiten, die Google in einem bestimmten Zeitraum auf deiner Website crawlt. Bei großen Websites kann es sinnvoll sein, dieses Budget gezielt zu steuern.
Mit Disallow kannst du unwichtige Seiten vom Crawling ausschließen, damit Google mehr Zeit für deine wichtigen Inhalte hat.
Typische Kandidaten für das Ausschließen:
- Interne Suchergebnisseiten
- Druckversionen von Seiten
- Session-basierte URLs
- Übermäßige Filterkombinationen in Online-Shops
- Paginierte Archive mit wenig einzigartigem Content
💡 Tipp: Nutze die Google Search Console, um zu sehen, welche URLs Google crawlt. Im Bereich „Einstellungen“ findest du Statistiken zum Crawl-Verhalten.
WordPress und die robots.txt
WordPress erstellt automatisch eine virtuelle robots.txt-Datei. Diese enthält in der Regel die Standard-Blockierung für den Admin-Bereich:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Du kannst diese Datei auf verschiedene Arten anpassen:
Methode 1: Physische Datei erstellen
Erstelle eine Datei namens robots.txt und lade sie per FTP in das Root-Verzeichnis deiner WordPress-Installation. Diese überschreibt die virtuelle Datei.
Methode 2: SEO-Plugin nutzen
Plugins wie Yoast SEO, Rank Math oder All in One SEO bieten einen integrierten robots.txt-Editor. Dort kannst du die Datei direkt im WordPress-Backend bearbeiten.
📱 WordPress-Einstellung prüfen: Unter Einstellungen → Lesen findest du die Option „Suchmaschinen davon abhalten, diese Website zu indexieren“. Wenn diese aktiviert ist, fügt WordPress automatisch ein Disallow: / hinzu. Das ist oft die Ursache für unbeabsichtigte Indexierungsprobleme.
Die Sitemap in der robots.txt einbinden
Google, Bing und andere große Suchmaschinen unterstützen die Sitemap-Anweisung in der robots.txt. Das erleichtert es Crawlern, deine XML-Sitemap zu finden:
User-agent: *
Disallow: /admin/
Disallow: /temp/
Sitemap: https://www.beispiel.de/sitemap.xml
Die Sitemap-Zeile kann an beliebiger Stelle in der robots.txt stehen. Sie ist keinem User-Agent zugeordnet und gilt global.
⚠️ Achtung beim Protokoll: Achte darauf, dass das Protokoll der Sitemap-URL (http oder https) mit deiner Website übereinstimmt. Eine häufige Fehlerquelle ist http-Sitemap auf einer https-Website.
robots.txt testen und validieren
Bevor du Änderungen an deiner robots.txt live schaltest, solltest du sie testen. Es gibt mehrere Möglichkeiten:
Google Search Console
Im Bereich „robots.txt-Tester“ der Google Search Console kannst du:
- Deine aktuelle robots.txt einsehen
- Einzelne URLs testen
- Fehler und Warnungen identifizieren
Browser-Check
Rufe einfach www.deine-domain.de/robots.txt im Browser auf. Wenn die Datei angezeigt wird, ist sie richtig platziert.
Online-Tools
Es gibt verschiedene Online-Tools wie den robots.txt-Validator von Merkle oder den robots.txt-Checker von SE Ranking, mit denen du deine Datei prüfen kannst.
💡 Best Practice: Nach jeder Änderung an der robots.txt solltest du die betroffenen URLs in der Search Console testen. Änderungen können 24 bis 48 Stunden dauern, bis sie wirksam werden.
Sicherheitsaspekte der robots.txt
Ein häufiges Missverständnis: Die robots.txt ist kein Sicherheitsmechanismus. Sie ist öffentlich einsehbar. Jeder kann sie aufrufen und sehen, welche Bereiche du blockierst.
Das kann sogar nach hinten losgehen. Wenn du schreibst Disallow: /geheime-dokumente/, machst du potenzielle Angreifer erst auf diesen Pfad aufmerksam. Manche Scanner suchen gezielt nach blockierten Bereichen, weil dort oft interessante Inhalte liegen.
Für echten Schutz sensibler Daten brauchst du:
- Passwortschutz (HTTP-Authentifizierung)
- IP-Beschränkungen
- Serverseitige Blockierung über .htaccess
Die robots.txt ist ein Instrument zur Kommunikation mit seriösen Crawlern, mehr nicht. Sie gehört zu den Grundlagen von White Hat SEO und sollte transparent und nachvollziehbar sein.
Praxisbeispiel: Optimale robots.txt für einen Online-Shop
Hier ein Beispiel, wie eine durchdachte robots.txt für einen E-Commerce-Shop aussehen könnte:
User-agent: *
# Nutzerbezogene Bereiche blockieren
Disallow: /mein-konto/
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /wunschliste/
# Admin und Backend
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Filter-Parameter einschränken
Disallow: /*?sort=
Disallow: /*?seite=*&filter=
# Interne Suche
Disallow: /suche/
# Warenkorb für Google Ads freigeben
User-agent: AdsBot-Google
Allow: /warenkorb/
Sitemap: https://www.shop-beispiel.de/sitemap.xml
Diese Konfiguration blockiert sensible Nutzerbereiche und überflüssige Filter-URLs, gibt aber dem Google Ads Bot Zugriff auf den Warenkorb für die Anzeigenqualität.
FAQ: Häufige Fragen zu Disallow in der robots.txt
Was passiert, wenn meine Website keine robots.txt hat?
Ohne robots.txt-Datei dürfen Crawler alle Bereiche deiner Website durchsuchen. Das ist das Standardverhalten. Eine robots.txt ist optional, aber für größere Websites empfehlenswert.
Kann ich mit Disallow bestimmte Crawler komplett blockieren?
Ja, das geht. Mit User-agent: Bingbot gefolgt von Disallow: / sperrst du beispielsweise den Bing-Crawler von deiner gesamten Website aus. Aber Vorsicht: Das Blockieren von Googlebot kann zu erheblichen Ranking-Problemen führen.
Wie lange dauert es, bis Änderungen an der robots.txt wirksam werden?
In der Regel 24 bis 48 Stunden. Bei größeren Websites kann es bis zu einer Woche dauern. Google cached die robots.txt-Datei, deshalb sind Änderungen nicht sofort sichtbar.
Verhindert Disallow die Indexierung einer Seite?
Nein, nicht zuverlässig. Disallow verhindert nur das Crawling. Wenn eine blockierte URL von anderen Websites verlinkt wird, kann Google sie trotzdem indexieren. Für sichere De-Indexierung nutze den Noindex-Tag.
Muss ich in der robots.txt zwischen Groß- und Kleinschreibung unterscheiden?
Bei User-Agent-Namen nicht. Bei Pfaden in der Disallow-Anweisung schon. /Admin/ und /admin/ sind zwei verschiedene Pfade.
Kann ich mehrere User-Agent-Blöcke in einer robots.txt haben?
Ja. Du kannst für jeden Crawler individuelle Regeln definieren. Wenn ein Crawler eine spezifische Regel für sich findet, ignoriert er die allgemeinen Regeln (User-agent: *).
Fazit: „Die robots.txt ist mächtig, aber kein Sicherheitsnetz.“
Die Disallow-Direktive ist ein wichtiges Werkzeug für die technische SEO. Sie hilft dir, das Crawling deiner Website zu steuern und dein Crawl-Budget sinnvoll einzusetzen.
Aber: Kleine Fehler in der robots.txt können große Schäden anrichten. Teste jede Änderung gründlich, bevor du sie live schaltest. Und vergiss nicht: Für echte Indexierungskontrolle ist der Noindex-Tag oft die bessere Wahl.
Wenn du dein Google-Ranking verbessern möchtest, gehört eine saubere robots.txt zur Grundausstattung. Sie ist kein Hexenwerk, erfordert aber Sorgfalt und regelmäßige Überprüfung.
