« Kategorie: Webmaster

Google-Bot Crawler aus Access-Log filtern & auswerten

Hier zeigen wir Dir, wie Du aus deiner Access-Log-Datei alle Seitenaufrufe des Google-Bots erkennen und auswerten kannst.

Nur das Access-Log-File deines Linux-Server zeigt Dir wirklich, wann der Google-Bot deine Webseite besucht hat und welche Unterseiten er gecrawlt hat. Außerdem erkennst Du auch, welche HTTP-Status-Codes die Seitenaufrufe an den Google-Bot zurück geliefert haben, woran Du auch fehlerhafte Weiterleitungen entdecken kannst.

Unter der Annahme das deine Access-Log-Datei unter dem Pfad "/var/www/mysite/access.log" liegt, kannst Du mit dem folgenden Linux-Befehl alle vom Google-Bot gecrawlten Seiten herausfiltern:

cat /var/www/mysite/access.log | grep "Googlebot" | cut -d' ' -f4,5,7,9

Als Ergebnis erhältst Du z. B. Ausgabe (Zeitstempel, URI, HTTP-Status-Code):

[20/Mar/2017:15:50:18 +0100] /lifestyle/freizeit-natur/ideen-und-tipps-fuer-deine-anstehende-party-oder-veranstaltung-72.htm 200

[20/Mar/2017:15:57:41 +0100] /lifestyle/wohnen-dekoration/energie-sparen-gratis-telefon-hotline-fuer-spar-tipps-infos-168.htm 200

Tags: Google-Bot, Crawler, Access-Log, Filtern, Googlebot



Aufgenommen am: 20.03.2017
Aufrufe dieser Seite: 3277