Google-Bot Crawler aus Access-Log filtern & auswerten
Hier zeigen wir Dir, wie Du aus deiner Access-Log-Datei alle Seitenaufrufe des Google-Bots erkennen und auswerten kannst.
Nur das Access-Log-File deines Linux-Server zeigt Dir wirklich, wann der Google-Bot deine Webseite besucht hat und welche Unterseiten er gecrawlt hat. Außerdem erkennst Du auch, welche HTTP-Status-Codes die Seitenaufrufe an den Google-Bot zurück geliefert haben, woran Du auch fehlerhafte Weiterleitungen entdecken kannst.
Unter der Annahme das deine Access-Log-Datei unter dem Pfad "/var/www/mysite/access.log" liegt, kannst Du mit dem folgenden Linux-Befehl alle vom Google-Bot gecrawlten Seiten herausfiltern:
cat /var/www/mysite/access.log | grep "Googlebot" | cut -d' ' -f4,5,7,9
Als Ergebnis erhältst Du z. B. Ausgabe (Zeitstempel, URI, HTTP-Status-Code):
[20/Mar/2017:15:50:18 +0100] /lifestyle/freizeit-natur/ideen-und-tipps-fuer-deine-anstehende-party-oder-veranstaltung-72.htm 200
[20/Mar/2017:15:57:41 +0100] /lifestyle/wohnen-dekoration/energie-sparen-gratis-telefon-hotline-fuer-spar-tipps-infos-168.htm 200
Tags: Google-Bot, Crawler, Access-Log, Filtern, Googlebot
Aufgenommen am: 20.03.2017
Aufrufe dieser Seite: 3438