Case-Study: Noindex

Werbung

Warum Homepage-Baukasten.de 99,8% aller eigenen Seiten deindexiert

Es ist nun knapp zwei Jahre her, dass Google mit seinem zweiten großen Phantom-Update bei vielen Webmastern für große Bestürzung gesorgt hat. Die Aktualisierung des Core-Algorithmus hatte teils verheerenden Einfluss auf die Sichtbarkeitswerte von beispielsweise redaktionell geführten Portalen, qualitativ hochwertigen Ratgeberseiten, oder auch Domains im Aufwärtstrend. So auch Homepage-Baukasten.de. Nach dem Phantom-Update verlor die Seite 40 Prozent der Sichtbarkeit. Die Betreiber reagierten, indem sie am 27. Oktober 2016 über 100.000 interne Seiten auf „no-index“ umstellten.

Sistrix Case Study 1

Thin-Content als Übeltäter

Die Analyse der eigenen Seite ergab recht schnell, dass Google mit dem Update vor allem an der Qualitätsschraube gedreht hatte. Für den User sollten qualitativ hochwertige Webseiten sichtbarer gemacht werden. Insbesondere Faktoren wie die Benutzerfreundlichkeit oder viel Thin-Content spielen in die neue Qualitätsbewertung mit rein. Die interne Untersuchung ergab, dass der Anteil der redaktionell erstellten Artikel vergleichsweise niedrig war. Dieser ist zwar hochwertig und bietet einen echten Mehrwert, doch im Vergleich zu den Foren-Seiten stellt er nun einen Bruchteil der Inhalte von Homepage-Baukasten.de. Etwa 100 redaktionellen URLs stehen circa 103.000 Forenseiten gegenüber.

Die Annahme: Ein Großteil der Forenseiten werden als Thin-Content gewertet und übersteigen so die Zahl qualitativ hochwertiger, redaktioneller Inhalte um ein vielfaches. Mit Hilfe von Google Analytics wurden die Foren-URLs ermittelt, welche seit mindestens einem Jahr keinerlei organischen Traffic verbucht hatten. Die Konsequenz, um im Google-Ranking wieder zu steigen: Die Implementierung des „no-index“-Tags am 27. Oktober 2016 bei jeder Foren-URL im Head-Bereich des Codes, die seit mindestens einem Jahr keinen organischen Traffic aufweisen konnte.

Sistrix Case Study 2

Google crawlt lange ohne Effekt

In der Folge überwachte das Team den Verlauf der Deindexierung, um mögliche Probleme, z.B. beim Crawling, zu identifizieren. Nach der Integration des „no-index“-Tags überprüfte man den Status täglich, unter Einsatz der Search Console und der „Site“-Abfrage bei Google. Mit Hilfe von „Abruf wie durch Google“ in der Search Console versuchte das Team, den Prozess zu beschleunigen.

Schauen wir uns die Search Console Crawling Statistik an, so sehen wir, dass der Google Bot zwischen dem 27. Oktober 2016 und dem 15. Januar 2017 mehrfach auf Homepage-Baukasten.de war und dabei jeweils bis zu 26.534 Seiten gecrawlt hat. Bemerkenswert: Bis zum 15. Januar gab es jedoch weder Veränderungen in der Site-Abfrage, noch im Indexierungsstatus der Search Console. Hätte man ursprünglich erwarten können, dass die am 23. Oktober 2016 indexierten Seiten bis Anfang 2017 bereits stark gefallen sein müssten, so zeigte die Realität eine lediglich sanft abfallende Kurve. Die Seiten wurden also trotzt reger Googlebot-Aktivität äußerst langsam deindexiert.

Sistrix Case Study 3

Sistrix Case Study 4

Bereits am 19. Januar 2017 wurden abermals 29.393 Seiten durch den Googlebot gecrawlt und wenige Wochen später, am 12. Februar 2017, wiederholte sich die Prozedur abermals – dieses Mal waren es sogar, laut Search Console, 34.757 gecrawlte Seiten.

Sistrix Case Study 5

Sistrix Case Study 6

Die Search Console lieferte also Daten zu 3 Crawls zu je bis zu 35.000 Seiten. Dennoch verlief der Prozess der Deindexierung über die gesamte Beobachtungsperiode äußerst schleppend.

Sistrix Case Study 7

Ende März (Stand 29. März 2017) sind laut Site-Abfrage weiterhin 2.220 Foren-Seiten indexiert. Ein Fehler beim Einbau des „no-index“-Tags kann ausgeschlossen werden, da die Seiten definitiv deindexiert werden – nur eben sehr langsam. Wie kann es jedoch erklärt werden, dass der Googlebot über diesen sehr langen Zeitraum von mehreren Monaten mehrfach über 30.000 Seiten gecrawlt hat, ohne eine schnellere Deindexierung zu veranlassen? Spätestens nach einer dreifachen tiefgehenden Durchleuchtung der Seite, wäre eine flottere Deindexierung zu erwarten. Die Frage, weshalb Google diesen Prozess absichtlich oder unabsichtlich stückelt, bleibt vorerst unbeantwortet.

Werbung

15 KOMMENTARE

  1. Hallo Max,

    schöner Beitrag zu diesem hoch aktuellen Thema. Allerdings hat sich ein kleiner Denkfehler eingeschlichen der deinen Prozess eventuell nicht unbegründet so langsam darstellt.

    In den Crawlstatistiken siehst du nicht die Anzahl von unterschiedlichen URLs die Google gecrawlt hat, sondern die Anzahl an Besuchen die der Bot gemacht hat. Es kann durchaus sein, dass Google eine hohe Anzahl an URLs mehrfach aufruft und es deshalb zu diesen Werten kommt. Schau dazu mal in die Logfiles – nur dort bekommst du belastbare Daten zu Crawlvorgängen.

    Beste Grüße,
    André

  2. Guten Morgen André,

    vielen Dank für dein Kommentar! Du hast natürlich Recht, das war tatsächlich ein Denkfehler! Ich werde mir die Logfiles mal ansehen – danke für den Tipp. 🙂

    Beste Grüße
    Max

  3. Moin Max,

    ich denke mein Vorredner hat hier recht. Sobald es in die 3 . Klickebene geht ist Google doch nur sehr langsam. Möchte erst recht nicht wissen wie selten der Bot in nem Forum vorbeikommt. Gerade Beiträge die nicht diskutiert werden, können dann schonmal schnell ein halbes Jahr rumliegen bis der Bot wieder vorbei kommt. Hier sieht man auch wieder wie sehr man sich doch von Metriken täuschen läßt. Du hast zwar Sichtbarkeit eingebüßt, aber nichts was wirklich von Wert wäre. Die Rankings sind wie eingenagelt.

    Gruß
    Thomas

  4. Hi André, hi Thomas,

    ich habe mir die Logfiles gerade mal angesehen, wäre natürlich schlauer gewesen, das vor dem Artikel zu tun. ^^

    Ändert aber nichts an der Analyse:

    Laut Search Console hat der Googlebot am 12.04. über 100.000 Seiten gecrawlt, weswegen ich mir die Logfiles vom 12.04. angeschaut habe. Es ist in der Tat so, dass Google verschiedenste Foren URLs an diesem Tag, auch in bspw. dritter Ebene, zig tausende male aufgerufen hat.

    Ich habe dabei aber etwas anderes spannendes bemerkt: Bei site:www.homepage-baukasten.de/forum/ werden in den Ergebnissen bei URLs, bei denen wir keine „noindex“ gesetzt haben die Option den Cache anzusehen. Bei allen noindex-Seiten gibt es keine gecachete Version der Seite.

    Die Frage bleibt also offen: Warum läuft die Deindexierung nach wie vor so stückelhaft, wenn Google die URLs bereits gecrawlt hat und auch das no-index-Tag richtig erkannt hat?

    Beste Grüße
    Max

  5. IMHO: Google lässt sich mit der Deindexierung etwas Zeit, um auszuschließen, dass es sich bei dem Noindex um eine Fehleinstellung handelt. Erst wenn nach mehrfachen Crawlen, dass Noindex immer noch vorhanden ist, nimmt Google dieses ernst und deindexiert die Seiten.

    Je mehr externe Links auf diese Seiten zeigen desto “misstrauischer” verhält sich Google gegenüber dem Noindex.

    Mit dem Anspruch den Usern immer das beste Ergebniss anzuzeigen, will Google damit sicherstellen, dass keine relevanten Inhalte entfernt werden, die ein hohes Nutzerinteresse befriedigen.

  6. Hi Lucien,

    danke für dein Comment! Ich sehe das ein bisschen anders:

    Wir haben zum einen Foren-URLs deindexiert, auf denen seit mindestens einem Jahr kein organischer Traffic mehr zu sehen war. Würde Google hier nach Usersignalen gehen, hätten diese ja schneller deindexiert sein müssen als andere. War so aber nicht der Fall.

    Zudem haben haben wir auch URLs auf no-index umgestellt, die zwar organic Traffic generiert haben aber thematisch in keinster Weise was mit unserer Branche zu tun hatten. Auch das hat Google nicht langsamer deindexiert als bspw. eine URL ohne Traffic.

    Beste Grüße
    Max

  7. Hallo Max,

    vielen Dank für die Auswertung (auch in den Comments). Wäre klasse, wenn du die Case Study auch in ein paar Monaten weiterführst.

    Ich habe gerade das gleiche Problem. Nur ist es kein Forum, sondern ein Blog. Mein Lösungsansatz war auch die Unterseiten mit Thin Content auf no-index zu setzen. Google zeigt dort auch ein sehr sehr langsames deindexieren (trotz ständigem crawlen der Unterseiten). Ich vermute auch, dass Google hier von einem Programmier-Fehler ausgeht und daher nur ganz langsam deindexiert. Ich sehe täglich unzählige Websites mit falschen robots.txt und noindex-Angaben. Für Google stellt dies also ein großes Problem da, um die guten Inhalte im Index zu halten. Daher wahrscheinlich das langsame deindexieren. So gehen sie sicher, dass es vom Webmaster ernst gemeint ist.

    Ich würde die URL ungern öffentlich posten, aber du kannst mich gerne anschreiben.

    Viele Grüße
    Sebastian Frisch

  8. Hi Sebastian,

    auch dir vielen Dank für dein Kommentar! 🙂 Es wird aufjedenfall einen zweiten Teil der Study geben, in der ich dann abschließend noch einmal alles auswerte.

    Dass Google im Allgemeinen bei dem Tag “noindex” abwartet, klingt für mich logisch. Das kann in der Tat sein, da ich mir gut vorstellen kann, dass sich die Wenigsten bei Google beschweren, wenn Seiten mal langsamer deindexiert werden. Wenn aber versehentlich ein Coder alle Seiten aus dem Index kegelt wird es da mehr Rückmeldungen geben.

    Also hatte Lucien mit seiner Vermutung teils Recht. Nur werden eben im Allgemeinen die Inhalte langsamer deindexiert und nicht basierend auf externe Links und andere Usersignale.

    Vielen Dank für euren Input! 🙂

    Beste Grüße
    Max

  9. Hallo Max,

    ich bin kein onpage-SEO, daher notiere ich hier eher meine Überlegungen als einen konkreten Rat. Umso mehr freue ich mich auf deine Antwort, weil ich dann gleichzeitig auch mitlerne. 🙂

    Erste Überlegung: Laut Google ist die Methode mit noindex nicht so sicher (https://support.google.com/webmasters/answer/1663419?hl=de). Als weitere Möglichkeiten schlägt Google die Löschung oder die Passwortsperrung der jeweiligen Inhalte vor. Kommt die Löschung / Teillöschung in Frage, wenn die Inhalte sowieso nicht viel Mehrwert und Traffic bringen?

    Zweite Überlegung: Gibt es irgendwelche Parameter, die an euren URLs noch dranhängen und die ihr noch nicht deindexiert / blockiert habt? Das würde erklären, warum die URLs-Zahl nur langsam sinkt: Weil ihr einen Teil einfach noch nicht „erwischt“ habt.

    Freue mich auf deine Antwort.

    Viele Grüße,

    Stefan

  10. @Max: Zu deinem Kommentar: “Wir haben zum einen Foren-URLs deindexiert, auf denen seit mindestens einem Jahr kein organischer Traffic mehr zu sehen war.”

    Gerade für solche Seiten interessiert sich der Google Bot erfahrungsgemäß sehr wenig und crawlt diese daher entsprechend selten. Hier kann es länger dauern bis Google nach wiederholten Crawl-Versuchen ein dauerhaftes Noindex vorfindet und dieses berücksichtigt. Deinen Logfiles nach ist Google ja auch gut im Gange.

    Die Kurve der Deindexierung bestätigt die permanente und fortlaufende Deindexierung. Bei 103.000 Forenseiten finde ich das Tempo absolut normal (bzw. deckt sich dies mit meiner Erfahrung). Beim Deindexieren ist Google nicht der Schnellste. Ein Stück weit soll das vermutlich auch Webmaster schützen.

    VG Lucien

  11. Hi Stefan,

    auch dir vielen Dank für deinen Input.

    Zu deiner ersten Überlegung:

    Google sagt zwar, dass es die unsicherste aller 3 möglichen Varianten wäre, schlägt diese aber ja trotzdem selbst vor. Die Löschung der URLs kommt, wie die Passwortlösung, aufgrund der direct Aufrufe und der aktiven Forenuser für uns nicht in Frage. Was noch funktioniert hätte, wäre die Entfernung aus den Suchergebnissen via Removalantrag gewesen. Haben uns aber aufgrund der Masse an URLs dagegen entschieden. Ich denke daher schon, dass wir hier den richtigen Weg eingeschlagen haben.

    Zu deiner zweiten Überlegung:

    Das kann nicht sein, da Google keine URLs mit Parametern indexiert. In den Suchergebnissen findest du nur “normale” URLs. Es steht ja auch im Header jeder Seite “noindex”, da ist es egal ob Parameter oder nicht.

    Beste Grüße
    Max

  12. Hallo Max,

    versucht doch mal Folgendes: Erstellt eine eigene Sitemap und listet dort sämtliche Pages auf, die deindexiert werden sollen (noindex). Diese Sitemap könnt Ihr dann über die Search Console einreichen. Vielleicht beschleunigt das den Prozess?

    Viele Grüße
    Peter

  13. Hallo Max,

    schöner Beitrag.

    “Das kann nicht sein, da Google keine URLs mit Parametern indexiert.”

    Das kommt aber doch schon hier und da mal vor, zumal der selbstreferenzierende Canonical dann auch sinnlos wäre, oder?

    VG,
    Toni

  14. Hi Peter, hi Toni,

    vielen Dank für eure Kommentare!

    @Peter: Das ist eine super Idee, wenn man ein Problem damit hat, dass Google die Seiten nicht vollständig crawlt. In den Logfiles konnten wir aber sehen, dass Google die Foren-Seiten mehrfach auch in tieferen Ebenen aufgerufen hat.
    Man könnte hier beispielsweise noch mit Priorities in der Sitemap arbeiten und alle no-index-Seiten mit der Prio 1,0 belegen. Wenn aber 99,8% aller Seiten einer Domain die Prio 1,0 hätten, hätte dies vermutlich wenig Effekt.

    Google lässt sich anscheinend, wie von Lucien auch schon beschrieben, absichtlich Zeit um sicher zu gehen, dass die Seiten wirklich deindexiert werden sollen.

    @Toni: Ich glaube du hast mich flasch verstanden. Ich meinte nicht, dass Google im Allgemeinen keine URLs mit Parametern indexiert, sondern dass unsere Foren-URLs alle ohne Parameter indexiert sind. Sorry für die ungenaue Ausdrucksweise. 🙂

    Beste Grüße
    Max

  15. Ich habe im Feb ein Projekt Relaunch durchgeführt und dabei auch einige zehntausend Unterseiten gelöscht / mit anderen Seiten zusammengeführt. Google hat relativ schnell damit angefangen die Seite neu zu crawlen, aber trotz Umleitungen, 410 Error Seiten, Sitemaps mit alten Urls … sind bis heute noch nicht alle URLs aktualisiert.

    Wie André schon sagte lohnt sich der Blick in die Logs. Ich habe gleich zum Relaunch die Logs überwacht und kann mit Sicherheit sagen das alle alten URLs zumindest einmal gecrawlt wurden. Jetzt liegt es einfach in Googles Hand wann die Datenreste aus der Suche fliegen 😉

Hinterlasse eine Antwort