Ressource

Logfile-Analyse für SEO

Server-Logfiles zeigen, was Suchmaschinen tatsächlich auf Ihrer Website tun – nicht nur, was sie indexieren. Sie decken Crawl-Budget-Verschwendung, versteckte Fehler, Bot-Verhalten und Orphan Pages auf. Für B2B-Websites mit Tausenden Seiten ist die Logfile-Analyse der genaueste Weg, technische SEO zu optimieren.

1. Crawl Budget analysieren

Crawl Budget ist die Anzahl der Seiten, die Google pro Tag crawlt. Logfiles zeigen exakt, welche URLs gecrawlt werden, wie oft und mit welchem Ergebnis. Die Diskrepanz zwischen „Seiten, die gecrawlt werden" und „Seiten, die SEO-relevant sind" offenbart Optimierungspotenzial.

Crawl-Verteilung nach Verzeichnis

Gruppieren Sie Crawl-Requests nach Verzeichnissen: Wie viel Budget geht in /blog/, wie viel in /produkte/, wie viel in /suche/ oder /temp/? Oft entdecken Sie, dass 30–60 % des Budgets für irrelevante Bereiche verschwendet wird.

Tool: Screaming Frog Log Analyzer, Splunk, ELK-Stack, oder einfache Shell-Scripts mit awk/sed.

Crawl-Frequenz pro Seite

Strategische Seiten (Pillar Pages, Produkte, Cases) sollten mindestens alle 2–7 Tage gecrawlt werden. Seiten, die nur einmal pro Monat oder seltener gecrawlt werden, verlieren an Aktualität im Index. Logfiles zeigen die tatsächliche Frequenz.

Kennzahl: Strategische Seiten = Crawl-Frequenz < 7 Tage; Orphan Pages = Crawl-Frequenz > 30 Tage.

Crawl-Budget-Verschwender identifizieren

Interne Suchergebnisse, Filter-Kombinationen, Session-URLs, Kalender-Seiten und Druckansichten fressen Budget. Suchen Sie im Logfile nach URLs mit hoher Crawl-Häufigkeit, aber niedrigem SEO-Wert. Diese sind die ersten Kandidaten für robots.txt-Disallow oder noindex.

Muster: URLs mit ?q=, ?sort=, ?page= (bei sehr hoher Seitenzahl), /print/.

Crawl-Timing und Server-Last

Analysieren Sie, wann Googlebot crawlt und wie die Server-Response-Zeiten zu diesen Zeiten aussehen. Langsame Response-Zeiten während Crawl-Peaks signalisieren, dass das Budget künstlich begrenzt wird – nicht durch Google, sondern durch Ihren Server.

Kennzahl: Durchschnittliche Response-Zeit während Crawl-Peaks sollte < 500 ms sein.

2. Status Codes interpretieren

Logfiles zeigen nicht nur, WAS gecrawlt wird, sondern auch das ERGEBNIS jedes Crawls. Status Codes sind die Vitaldaten Ihrer Website – und häufige Fehlercodes sind Warnsignale für tieferliegende Probleme.

200 OK – das Ziel, aber mit Feinheiten

200-Statuscodes sind gut – aber nicht alle 200er sind gleich. Prüfen Sie, ob 200-Responses tatsächlich den erwarteten Content liefern oder möglicherweise Soft-404s sind (Seiten mit „Nicht gefunden"-Text, aber 200-Status). Soft-404s sind schwerer zu erkennen als echte 404er.

Prüfung: Stichproben von 200-URLs mit curl -I und visuelle Kontrolle des Body.

301 und 302 Redirects

301 (Permanent Redirect) ist der Standard für umgezogene Seiten; 302 (Temporary Redirect) sollte nur für temporäre Umleitungen verwendet werden. Logfiles zeigen Redirect-Ketten (A→B→C→D), die Crawl Budget verschwenden und Nutzer verlangsamen.

Ziel: Maximal 1 Redirect pro URL; Redirect-Ketzen eliminieren; interne Links auf Ziel-URL aktualisieren.

404 und 410 Fehler

404 (Not Found) und 410 (Gone) signalisieren nicht erreichbare Seiten. 404er, die häufig gecrawlt werden, deuten auf interne oder externe Links zu nicht existierenden Seiten hin. 410 ist stärker als 404 und sagt Google explizit, dass die Seite dauerhaft entfernt wurde.

Workflow: Top-404-URLs identifizieren → Quelle finden (interner Link, externer Backlink) → 301 auf relevante Seite oder 410 setzen.

5xx Serverfehler

500 (Internal Server Error), 502 (Bad Gateway), 503 (Service Unavailable) und 504 (Gateway Timeout) signalisieren Server-Probleme. Häufige 5xx-Fehler führen zu reduziertem Crawl Budget und potenziellen Ranking-Einbußen. Ein 503 mit Retry-After-Header ist akzeptabel für geplante Wartung.

Alert: Automatisierte Benachrichtigung bei > 1 % 5xx-Fehlern im Crawl oder > 10 5xx/Minute.

3. Bot-Verhalten analysieren

Nicht jeder Bot ist Googlebot. Logfiles zeigen, welche Crawler Ihre Website besuchen – legitime (Bingbot, Slurp, DuckDuckBot) und potenziell schädliche (Scraper, Spam-Bots, unbekannte Crawler).

User-Agent-Filterung

Gruppieren Sie Logfile-Einträge nach User-Agent. Googlebot sollte den Großteil des Crawl Budgets erhalten. Wenn andere Bots (z. B. AI-Scraper, SEO-Tools, Aggregatoren) einen signifikanten Anteil haben, prüfen Sie deren Notwendigkeit und blockieren Sie gegebenenfalls.

Prüfung: Reverse DNS-Lookup für Googlebot-IPs, um gefälschte Bots zu erkennen.

Crawl-Muster erkennen

Logische Crawl-Muster zeigen, wie Bots Ihre Website erkunden. Ein gut strukturiertes Crawl-Muster folgt der internen Verlinkung: Startseite → Kategorien → Produkte. Chaotische Muster (Sprünge zwischen unzusammenhängenden Bereichen) deuten auf schwache interne Verlinkung oder Orphan Pages hin.

Visualisierung: Screaming Frog Log Analyzer zeigt Crawl-Pfade als Diagramm.

AI-Scraper und unerwünschte Bots

Mit dem Aufkommen von KI-Modellen nehmen Scraping-Bots zu, die Inhalte für Trainingsdatensätze sammeln. Logfiles zeigen ungewöhnliche Crawl-Muster: Sehr schnelle Requests, Fokus auf Text-Content, unbekannte User-Agents. Blockieren Sie unerwünschte Bots über robots.txt oder IP-Blocking.

Werkzeuge: Cloudflare Bot Management, AWS WAF, oder .htaccess-Regeln für bekannte Scraper-IPs.

Crawl-Rate-Anpassung

Die Crawl-Rate kann in der Google Search Console angepasst werden (wohlwollendes Crawling). Wenn Ihr Server unter der Crawl-Last leidet, können Sie die Rate temporär reduzieren. Umgekehrt können Sie bei unterforderten Servern die Rate erhöhen, um schnellere Indexierung zu erreichen.

Hinweis: Die Crawl-Rate-Einstellung gilt nur für Googlebot; andere Bots ignorieren sie.

4. Orphan Pages finden

Orphan Pages sind Seiten, die nicht über interne Links erreichbar sind – nur über direkte URLs, Sitemaps oder externe Links. Sie werden seltener gecrawlt, schlechter indexiert und von Nutzern kaum gefunden.

Logfile vs. Crawl-Vergleich

Vergleichen Sie die URLs aus Ihrem Logfile (was Google tatsächlich crawlt) mit den URLs aus einem internen Crawl (was über Links erreichbar ist). URLs, die im Logfile vorkommen, aber nicht im internen Crawl, sind Kandidaten für Orphan Pages – oder extern verlinkte Seiten.

Tool: Screaming Frog Log Analyzer führt Logfile-Daten mit Crawl-Daten zusammen.

Sitemap vs. Logfile-Vergleich

Vergleichen Sie URLs in der XML-Sitemap mit URLs im Logfile. Seiten, die in der Sitemap stehen, aber nie oder extrem selten gecrawlt werden, haben wahrscheinlich keine interne Verlinkung und geringe strategische Bedeutung.

Aktion: Entweder intern verlinken (wenn strategisch relevant) oder aus Sitemap entfernen und noindex setzen.

Neue Orphan Pages nach Migrationen

Website-Relaunches und URL-Änderungen erzeugen häufig Orphan Pages: Alte URLs, die noch in der Sitemap stehen, interne Links, die nicht aktualisiert wurden, oder vergessene Weiterleitungen. Logfiles zeigen, ob Google diese „Geister-URLs" trotzdem findet und crawlt.

Workflow: Post-Migration Logfile-Analyse nach 2 Wochen → Orphan Pages identifizieren → Interne Links fixen.

Parameter-Orphans

URLs mit Parametern, die nur über externe Links oder veraltete Bookmarks erreicht werden, sind eine versteckte Orphan-Kategorie. Sie erscheinen im Logfile, haben aber keine interne Verankerung. Meistens sind sie irrelevant und sollten canonicalisiert oder gesperrt werden.

Beispiel: /produkt?utm_source=newsletter2023 ohne internen Link zu dieser parametrisierten URL.

5. Logfile-Analyse Tools und Workflows

Tool	Stärke	B2B-Anwendung	Kosten
Screaming Frog Log Analyzer	SEO-fokussierte Analyse, Crawl-Vergleich	Crawl Budget, Orphan Pages, Status Codes	Ab ~149 £/Jahr
Splunk	Enterprise-Log-Management, Dashboards	Große Websites, komplexe Filter	Enterprise (teuer)
ELK Stack	Open-Source, flexibel, skalierbar	Technische Teams, Custom Dashboards	Kostenlos (Server-Kosten)
Cloudflare Logs	Edge-Log-Daten, Bot-Management	Bot-Analyse, Sicherheit	Ab Pro-Plan
AWStats / GoAccess	Einfach, schnell, Open Source	Schnelle Übersichten, kleinere Sites	Kostenlos
Shell-Scripts (awk, sed)	Maximale Kontrolle, automatisierbar	Gezielte Extraktion, Cron-Jobs	Kostenlos

6. Logfile-Analyse im 90-Tage-Zyklus

Phase	Fokus	Output	Erfolgskennzahl
Woche 1–2	Datensammlung & Setup	Logfile-Import, Tool-Konfiguration, Baseline	7–30 Tage Logs verfügbar
Woche 3–4	Crawl Budget Analyse	Budget-Verteilung nach Verzeichnis, Top-Crawl-URLs	Strategische URLs = > 50 % Budget
Woche 5–6	Fehleranalyse	Top-404, 301-Ketten, 5xx-Fehler, Soft-404s	Fehlerquote < 1 %
Woche 7–8	Bot-Analyse & Orphan Pages	Bot-Verteilung, Orphan-Page-Liste	0 Orphan Pages für strategische URLs
Woche 9–10	Optimierung	robots.txt-Updates, interne Link-Fixes, Redirect-Korrekturen	Crawl Budget für SEO-URLs + 30 %
Woche 11–12	Monitoring einrichten	Automatisierte Reports, Alerts, Dashboards	Wöchentlicher Logfile-Report