Sign in to follow this  
Clavigo

Googlebot-Anomalie in Webserver-Logfile

Recommended Posts

Hallo zusammen, ich bin neu hier und bitte euch um Unterstützung zu einer speziellen Frage, zu der ich im Netz bisher keine Antwort gefunden habe.

Auf einer Website, auf der vermutlich alle Seiten nach einem Relaunch für einen gewissen Zeitraum irrtümlich auf NOINDEX,NOFOLLOW gesetzt waren, ist mir unter den Logfiles eines aufgefallen, das besonders hervorsticht. Meist hat Googlebot die Seiten nur ein paar Mal am Tag besucht, doch am 26.05.2017 hat er plötzlich im 10 Sekunden Takt über 700 Mal die Startseite abgerufen:

crawl-66-249-65-120.googlebot.com - - [26/May/2017:19:41:15 +0200] "GET / HTTP/1.1" 200 308596 …
crawl-66-249-65-120.googlebot.com - - [26/May/2017:19:41:24 +0200] "GET / HTTP/1.1" 200 305197 …
crawl-66-249-65-120.googlebot.com - - [26/May/2017:19:41:34 +0200] "GET / HTTP/1.1" 200 305197 …
[…]

 Das zog sich noch in den nächsten Tag bis ca 6 Uhr morgens und dann war wieder alles wie vorher.  Am übernächsten Tag waren es dann nur noch 5 Besuche auf der Startseite.

Hat jemand von euch eine Ahnung, was es damit auf sich haben könnte?  Könnte es sein, dass dieses Verhalten etwas mit einem (irrtümlichen) Umschalten von INDEX auf NOINDEX zu tun hat?

Vielen Dank für euren Input!

 

Share this post


Link to post
Share on other sites

Das ist zweieinhalb Jahre her, was versprichst du dir von einer Aufklärung...?

Das kommt gelegentlich vor, aber eine offizielle Aussage dazu kenne ich nicht. Mir ist aufgefallen, dass diese Besuche in der Regel mit der robots.txt oder vergleichbaren Direktiven wie eben auch NOINDEX-Angaben zusammenhängen.

Share this post


Link to post
Share on other sites

Hallo Matthes, danke für den Hinweis auf deine Beobachtungen. Wie manchmal im Leben, dauerte es auch in diesem Fall etwas länger, bis jemand Aufklärung über die Mysterien der Vergangenheit verlangte und ich mich jetzt damit beschäftigen darf 😉 Ich versuche dieses Ereignis mit anderen in Verbindung zu bringen, um die Frage zu beantworten, ob und falls ja wann nach dem Relaunch, die Seiten auf NOINDEX gesetzt wurden. Mehr als die Logfiles habe ich nicht.

Share this post


Link to post
Share on other sites

Du könntest auch einmal schauen ob die betreffende Webseite auf www.archive.org erfasst und gespeichert worden ist. Da archive.org aber nicht regelmäßig spidert ist diese Möglichkeit in der Aussagekraft sehr begrenzt. Die einzige Aussage die Du möglicherweise erhalten könntest wäre gegeben wenn:

Die Seite nicht auf nofollow gestanden und der Spider dann auch tatsächlich vorbeigekommen und die Seite aufgenommen hätte. Dann könntest Du zumindest zu den angezeigten Aufnahmezeiten eine Aussage treffen. Auf den angezeigten Webseiten kannst Du Dir den Quellcode ebenfalls mit rechtem Mausklick anzeigen lassen.

Edited by Sebastian E

Share this post


Link to post
Share on other sites

Vielen Dank, Sebastian für den Tipp! Eine spannende Sache. Ich finde nämlich die Seite mehrmals kurz nach der fraglichen Zeit auf archive.org, aber wenn ich mir den Quelltext ansehe, dann lese ich <meta name="robots" content="NOINDEX,NOFOLLOW"/>  auch zu Zeitpunkten, wo (angeblich) bereits auf INDEX,FOLLOW umgestellt war. 

Share this post


Link to post
Share on other sites
Vor 6 Stunden, Sebastian E said:

Dass archive.org den noindex-Tag ignoriert war mir bisher nicht bekannt. Man lernt täglich dazu...😉

Soweit ich weiß, beachten die nur die robots.txt

Vor 14 Stunden, Clavigo said:

Ich versuche dieses Ereignis mit anderen in Verbindung zu bringen, um die Frage zu beantworten, ob und falls ja wann nach dem Relaunch, die Seiten auf NOINDEX gesetzt wurden.

Geht es bei dieser Ermittlung um möglicherweise geschäftschädigendes Verhalten...?

Aus den Logfiles und dem darin protokollierten Crawler-Verhalten alleine wirst du das nicht zuverlässig ableiten können, das sind zu wenig Daten. Evtl. helfen die Snapshots auf archive.org wirklich, aber wie zuverlässig die in der Realität sind, kann ich nicht einschätzen. Ich weiß aus eigener Erfahrung, dass Snapshots durchaus nicht zu dem Zeitpunkt passen können, dem sie dort zugeordnet werden, selbst schon erlebt nach einem Relaunch.

Share this post


Link to post
Share on other sites

Wie schon angesprochen gibt es große Unterschiede zwischen 2017 wo in den Index gelangen schwerer war als heute. Zudem Google heute auch gern direktiven ignoriert und auch dann Seiten in den Index packt die im header einen noindex directive haben. Ob das dann einen Einfluss hat auf andere Seiten ist unbekannt. 

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Sign in to follow this