- Ressourcen
- Logfile-Analyse für SEO
Logfile-Analyse für SEO
Server-Logfiles zeigen, was Suchmaschinen tatsächlich auf Ihrer Website tun – nicht nur, was sie indexieren. Sie decken Crawl-Budget-Verschwendung, versteckte Fehler, Bot-Verhalten und Orphan Pages auf. Für B2B-Websites mit Tausenden Seiten ist die Logfile-Analyse der genaueste Weg, technische SEO zu optimieren.
1. Crawl Budget analysieren
Crawl Budget ist die Anzahl der Seiten, die Google pro Tag crawlt. Logfiles zeigen exakt, welche URLs gecrawlt werden, wie oft und mit welchem Ergebnis. Die Diskrepanz zwischen „Seiten, die gecrawlt werden" und „Seiten, die SEO-relevant sind" offenbart Optimierungspotenzial.
Gruppieren Sie Crawl-Requests nach Verzeichnissen: Wie viel Budget geht in /blog/, wie viel in /produkte/, wie viel in /suche/ oder /temp/? Oft entdecken Sie, dass 30–60 % des Budgets für irrelevante Bereiche verschwendet wird.
Strategische Seiten (Pillar Pages, Produkte, Cases) sollten mindestens alle 2–7 Tage gecrawlt werden. Seiten, die nur einmal pro Monat oder seltener gecrawlt werden, verlieren an Aktualität im Index. Logfiles zeigen die tatsächliche Frequenz.
Kennzahl: Strategische Seiten = Crawl-Frequenz < 7 Tage; Orphan Pages = Crawl-Frequenz > 30 Tage.Interne Suchergebnisse, Filter-Kombinationen, Session-URLs, Kalender-Seiten und Druckansichten fressen Budget. Suchen Sie im Logfile nach URLs mit hoher Crawl-Häufigkeit, aber niedrigem SEO-Wert. Diese sind die ersten Kandidaten für robots.txt-Disallow oder noindex.
Muster: URLs mit?q=, ?sort=, ?page= (bei sehr hoher Seitenzahl), /print/. Analysieren Sie, wann Googlebot crawlt und wie die Server-Response-Zeiten zu diesen Zeiten aussehen. Langsame Response-Zeiten während Crawl-Peaks signalisieren, dass das Budget künstlich begrenzt wird – nicht durch Google, sondern durch Ihren Server.
Kennzahl: Durchschnittliche Response-Zeit während Crawl-Peaks sollte < 500 ms sein.2. Status Codes interpretieren
Logfiles zeigen nicht nur, WAS gecrawlt wird, sondern auch das ERGEBNIS jedes Crawls. Status Codes sind die Vitaldaten Ihrer Website – und häufige Fehlercodes sind Warnsignale für tieferliegende Probleme.
200-Statuscodes sind gut – aber nicht alle 200er sind gleich. Prüfen Sie, ob 200-Responses tatsächlich den erwarteten Content liefern oder möglicherweise Soft-404s sind (Seiten mit „Nicht gefunden"-Text, aber 200-Status). Soft-404s sind schwerer zu erkennen als echte 404er.
Prüfung: Stichproben von 200-URLs mitcurl -I und visuelle Kontrolle des Body. 301 (Permanent Redirect) ist der Standard für umgezogene Seiten; 302 (Temporary Redirect) sollte nur für temporäre Umleitungen verwendet werden. Logfiles zeigen Redirect-Ketten (A→B→C→D), die Crawl Budget verschwenden und Nutzer verlangsamen.
Ziel: Maximal 1 Redirect pro URL; Redirect-Ketzen eliminieren; interne Links auf Ziel-URL aktualisieren.404 (Not Found) und 410 (Gone) signalisieren nicht erreichbare Seiten. 404er, die häufig gecrawlt werden, deuten auf interne oder externe Links zu nicht existierenden Seiten hin. 410 ist stärker als 404 und sagt Google explizit, dass die Seite dauerhaft entfernt wurde.
Workflow: Top-404-URLs identifizieren → Quelle finden (interner Link, externer Backlink) → 301 auf relevante Seite oder 410 setzen.500 (Internal Server Error), 502 (Bad Gateway), 503 (Service Unavailable) und 504 (Gateway Timeout) signalisieren Server-Probleme. Häufige 5xx-Fehler führen zu reduziertem Crawl Budget und potenziellen Ranking-Einbußen. Ein 503 mit Retry-After-Header ist akzeptabel für geplante Wartung.
Alert: Automatisierte Benachrichtigung bei > 1 % 5xx-Fehlern im Crawl oder > 10 5xx/Minute.3. Bot-Verhalten analysieren
Nicht jeder Bot ist Googlebot. Logfiles zeigen, welche Crawler Ihre Website besuchen – legitime (Bingbot, Slurp, DuckDuckBot) und potenziell schädliche (Scraper, Spam-Bots, unbekannte Crawler).
Gruppieren Sie Logfile-Einträge nach User-Agent. Googlebot sollte den Großteil des Crawl Budgets erhalten. Wenn andere Bots (z. B. AI-Scraper, SEO-Tools, Aggregatoren) einen signifikanten Anteil haben, prüfen Sie deren Notwendigkeit und blockieren Sie gegebenenfalls.
Prüfung: Reverse DNS-Lookup für Googlebot-IPs, um gefälschte Bots zu erkennen.Logische Crawl-Muster zeigen, wie Bots Ihre Website erkunden. Ein gut strukturiertes Crawl-Muster folgt der internen Verlinkung: Startseite → Kategorien → Produkte. Chaotische Muster (Sprünge zwischen unzusammenhängenden Bereichen) deuten auf schwache interne Verlinkung oder Orphan Pages hin.
Visualisierung: Screaming Frog Log Analyzer zeigt Crawl-Pfade als Diagramm.Mit dem Aufkommen von KI-Modellen nehmen Scraping-Bots zu, die Inhalte für Trainingsdatensätze sammeln. Logfiles zeigen ungewöhnliche Crawl-Muster: Sehr schnelle Requests, Fokus auf Text-Content, unbekannte User-Agents. Blockieren Sie unerwünschte Bots über robots.txt oder IP-Blocking.
Werkzeuge: Cloudflare Bot Management, AWS WAF, oder .htaccess-Regeln für bekannte Scraper-IPs.Die Crawl-Rate kann in der Google Search Console angepasst werden (wohlwollendes Crawling). Wenn Ihr Server unter der Crawl-Last leidet, können Sie die Rate temporär reduzieren. Umgekehrt können Sie bei unterforderten Servern die Rate erhöhen, um schnellere Indexierung zu erreichen.
Hinweis: Die Crawl-Rate-Einstellung gilt nur für Googlebot; andere Bots ignorieren sie.4. Orphan Pages finden
Orphan Pages sind Seiten, die nicht über interne Links erreichbar sind – nur über direkte URLs, Sitemaps oder externe Links. Sie werden seltener gecrawlt, schlechter indexiert und von Nutzern kaum gefunden.
Vergleichen Sie die URLs aus Ihrem Logfile (was Google tatsächlich crawlt) mit den URLs aus einem internen Crawl (was über Links erreichbar ist). URLs, die im Logfile vorkommen, aber nicht im internen Crawl, sind Kandidaten für Orphan Pages – oder extern verlinkte Seiten.
Tool: Screaming Frog Log Analyzer führt Logfile-Daten mit Crawl-Daten zusammen.Vergleichen Sie URLs in der XML-Sitemap mit URLs im Logfile. Seiten, die in der Sitemap stehen, aber nie oder extrem selten gecrawlt werden, haben wahrscheinlich keine interne Verlinkung und geringe strategische Bedeutung.
Aktion: Entweder intern verlinken (wenn strategisch relevant) oder aus Sitemap entfernen und noindex setzen.Website-Relaunches und URL-Änderungen erzeugen häufig Orphan Pages: Alte URLs, die noch in der Sitemap stehen, interne Links, die nicht aktualisiert wurden, oder vergessene Weiterleitungen. Logfiles zeigen, ob Google diese „Geister-URLs" trotzdem findet und crawlt.
Workflow: Post-Migration Logfile-Analyse nach 2 Wochen → Orphan Pages identifizieren → Interne Links fixen.URLs mit Parametern, die nur über externe Links oder veraltete Bookmarks erreicht werden, sind eine versteckte Orphan-Kategorie. Sie erscheinen im Logfile, haben aber keine interne Verankerung. Meistens sind sie irrelevant und sollten canonicalisiert oder gesperrt werden.
Beispiel:/produkt?utm_source=newsletter2023 ohne internen Link zu dieser parametrisierten URL. 5. Logfile-Analyse Tools und Workflows
| Tool | Stärke | B2B-Anwendung | Kosten |
|---|---|---|---|
| Screaming Frog Log Analyzer | SEO-fokussierte Analyse, Crawl-Vergleich | Crawl Budget, Orphan Pages, Status Codes | Ab ~149 £/Jahr |
| Splunk | Enterprise-Log-Management, Dashboards | Große Websites, komplexe Filter | Enterprise (teuer) |
| ELK Stack | Open-Source, flexibel, skalierbar | Technische Teams, Custom Dashboards | Kostenlos (Server-Kosten) |
| Cloudflare Logs | Edge-Log-Daten, Bot-Management | Bot-Analyse, Sicherheit | Ab Pro-Plan |
| AWStats / GoAccess | Einfach, schnell, Open Source | Schnelle Übersichten, kleinere Sites | Kostenlos |
| Shell-Scripts (awk, sed) | Maximale Kontrolle, automatisierbar | Gezielte Extraktion, Cron-Jobs | Kostenlos |
6. Logfile-Analyse im 90-Tage-Zyklus
| Phase | Fokus | Output | Erfolgskennzahl |
|---|---|---|---|
| Woche 1–2 | Datensammlung & Setup | Logfile-Import, Tool-Konfiguration, Baseline | 7–30 Tage Logs verfügbar |
| Woche 3–4 | Crawl Budget Analyse | Budget-Verteilung nach Verzeichnis, Top-Crawl-URLs | Strategische URLs = > 50 % Budget |
| Woche 5–6 | Fehleranalyse | Top-404, 301-Ketten, 5xx-Fehler, Soft-404s | Fehlerquote < 1 % |
| Woche 7–8 | Bot-Analyse & Orphan Pages | Bot-Verteilung, Orphan-Page-Liste | 0 Orphan Pages für strategische URLs |
| Woche 9–10 | Optimierung | robots.txt-Updates, interne Link-Fixes, Redirect-Korrekturen | Crawl Budget für SEO-URLs + 30 % |
| Woche 11–12 | Monitoring einrichten | Automatisierte Reports, Alerts, Dashboards | Wöchentlicher Logfile-Report |