Crawling & Googlebot

von Michael Schöttler

Kategorie(n): FAQ der Webmaster Hangouts Datum: 18. November 2016
 

Kernaussagen:

  1. Googlebot crawlt vor allem aus den USA (Kalifornien). Alle Inhalte sollten also aus dieser Region zu sehen sein.
  2. Mehr Crawling bedeutet nicht, besser zu ranken. Das Crawlen ist nur die technische Voraussetzung für das Ranken.
  3. Bei den allermeisten Seiten muss man sich nicht um das Crawlbudget kümmern. Denn die meisten Server sollten mit dem Crawlen durch Google gut klarkommen.

24.08.2017, 01:06

Frage: Sollte Start-, Kategorie- oder ProduktDetailSeite am häufigsten gecrawlt werden? In wie fern können wir es beeinflussen bzw. die Crawl-Prioritäten setzen? Antwort: Schwer zu sagen, wir versuchen das automatisch anzupassen. Wir versuchen festzustellen, welche Seiten sich am häufigsten verändern, damit wir das mitbekommen. Wir wollen aber auch merken, welche Seiten am wichtigsten sind, damit wir dort nichts verpassen. Normalerweise werden Seiten wie die Homepage oder die Kategorien am häufigsten gecrawlt, da wir dort neue Inhalte schnell finden. Die Reihenfolge in der Siteabfrage hat mit dem Crawlen eigentlich nichts zu tun, aber wir bewerten da schon ein wenig die Relevanz. Am besten hilft uns da eine klare Struktur mit einer guten internen Verlinkung. Wenn ihr etwas ändert und wir das Crawlen sollen, könnt ihr das auch in der Sitemap angeben.

22.08.2017, 32:01

Frage: Ich mache gerade ein paar Tests und frage mich, welche der Varianten ich Google zeigen soll? Antwort: Du solltest Googlebot die Variante zeigen, die die Mehrheit der Nutzer sehen. Wenn du 50:50 vorgehst, dann such es dir aus. Aber bleibe bei einer und wechsle das nicht, sonst werden wir sehr verwirrt sein.

10.08.2017, 30:03

Frage: Nach welchen groben Faktoren … – entscheidet der Googeblot, welche Unterseiten oder wie tief er crawlt? (und wie häufig?) – entscheidet der Indexer, was in den Index aufgenommen wird? Antwort: Das ist nicht so einfach zu beantworten. Da gibt es ein paar Blogposts, die ihr euch mal anschauen könnt.

10.08.2017, 00:50

Frage: Es werden auf einer Website Inhalte importiert die ein Produkt beschreiben. Wir möchten diese gerne in einem Tab unterbringen. Wie kann ich diese Tab-Inhalte vom Crawling ausschließen, so das kein Duplicate Content entsteht? Antwort: Wenn die Inhalte auf der Seite stehen, dann können wir sie auch crawlen. Wenn sie auf der Seite schon woanders stehen, dann ist das ok. Wir suchen uns in den SERPs dann einfach auf die relevantere Variante raus und zeigen sie. Da müsst ihr also nichts machen, um das zu verhindern.

02.08.2017, 25:02

Frage: Was für Kriterien werden angelegt, wenn Google ein Formular sieht, z.B. einen Versicherungsrechner? Antwort: Wir wollen meistens nur die Inhalte sehen, füllen aber nicht die Formulare aus oder so. Uns reicht es, zu wissen, was sich dort inhaltlich verbirgt.

29.06.2017, 37:57

Frage: Als Nachrichten-Portal besitzen wir über die Jahre hinweg sehr viele Artikel, die wir natürlich alle gerne im Index der Suchmaschine lassen wollen, da ja generell auch ältere Artikel zu bestimmten Recherche-Suchanfragen und Themen relevanten Content bieten. Wir machen uns jedoch Gedanken in Hinsicht Crawling-Budget. Wir würden das Budget natürlich gerne auf unsere neuesten Themen und Artikel konzentrieren, da diese sicherlich erstmal mehr Nutzer-Relevanz haben. Allerdings möchten wir natürlich auch zu älteren Artikeln noch gefunden werden. Gibt es eine Möglichkeit für uns das Crawling auf bestimmte Artikel/URLs zu fokussieren ohne ältere Artikel auf NOINDEX zu setzen, damit das Crawling-Budget vorrangig für die aktuellsten Artikel verwendet wird und ältere Artikel dann nur weiter gecrawled werden, wenn noch Budget übrig ist? Mein Gedanke wäre in unserer Sitemap nur noch die aktuellen Artikel aufzuführen und die älteren URLs dem Zufall zu überlassen… Ich schätze jedoch, dass das Crawling-Budget sich nicht vorranging an der Sitemap orientiert, sondern an allen URLs die dem Bot bekannt sind, also auch ältere zuvor schonmal indexierte URLs, womit das dann auch keine Lösung wäre, oder schätze ich das falsch ein? Antwort: An sich können wir fast alle Seiten gut crawlen, das ist also kein Problem. Da machen sich Webmaster meist umsonst Gedanken um das Crawling Budget. Uns hilft aber eine Sitemap mit Änderungsdaten, sodass wir die neuen und geänderten URLs sofort sehen. Die anderen gehen wir dann nur gelegentlich durch. Eine saubere URL-Struktur und interne Verlinkung hilft auch, damit sich die bestehenden URLs nicht bei jedem Crawl verändern. Noindex ist ein Meta-Tag auf den Seiten, wir müssen die Seiten also immer crawlen, um das zu sehen und das würde daher nichts für das Crawling verändern.

27.06.2017, 40:38

Frage: Wir wollen auf das kostenlose CDN von Cloudfare umsteigen, kann das zu SEO-Problemen führen? Antwort: Das ist total ok. Ich denke nicht, dass es da Probleme geben sollte. Es kann aber sein, dass wir einen Moment brauchen werden, um die neuen Möglichkeiten bei der Crawl Rate zu erkennen. Nutzer finden es bestimmt gut, wenn eure Seite schneller wird. Wenn ihr euch das in Tools anschaut, müsst ihr aber immer hinterfragen, was diese Tools genau messen. Ich glaube auch nicht, das Varnish einen Einfluss auf das Https hat. Wenn die Seite schneller wird, sehen wir aber vielleicht indirekte Auswirkungen.

16.06.2017,  35:26

Frage: Ich habe eine Seite auf Noindex und 404 gestellt, will sie jetzt aber wiederbeleben. Wird sie wieder genauso ranken wie vorher? Antwort: Vielleicht ja, vielleicht nein. Da gibt es keine allgemeine Antwort. Es kann auch sein, dass wir es als neue Seite behandeln. Das kommt auch auf die Inhalte an.

12.06.2017, 50:10

Frage: Ist es ein Problem für Google, wenn man beim selben Hoster zu einem anderen Gerät wechselt und sich dadurch die IP Adresse ändert? Alle Links bleiben aber gleich. Antwort: Du würdest keine Änderungen beim Ranking sehen, aber wir erkennen vielleicht die Änderungen in der Infrastruktur und crawlen erstmal langsamer, um zu sehen, ob der neue Server das aushalten kann. Das passiert zum Beispiel beim Wechsel zu einem CDN oft. Aber wenn wir sehen, dass es passt, dann crawlen wir auch wieder mehr.

12.06.2017, 23:42

Frage: Wir spielen unsere internen Bilderteaser mit Doubleclicl aus – dort sind sie also gehosted. Google kann die Seite aber nicht korrekt rendern, da die Bilder in der robots.txt von doubleclick blockiert sind. Wie können wir das lösen? Antwort: Die einfache Lösung ist, dass ihr die Bilder woanders hosted oder doubleclick zum Ändern der robots.txt bringt. Ansonsten sehe ich da keine Möglichkeiten.

12.06.2017, 12:34

Frage: Wonach priorisiert Google Crawlingfehler? Antwort: Dazu gibt es einen guten Blogpost, der ist zwar etwas älter, hat aber inhaltlich alles was man braucht. Der heißt “Crawl Errors, the next Generation”.

01.06.2017, 43:23

Frage: Wir haben bisher für unsere Preisvergleichsseite zu den Städten zusätzlich Seiten mit Postleitzahlen erstellt. Diese haben aber kaum Mehrwert für unsere User und füllen deswegen nur unnötig unser Crawlbudget. Wir würden nun gerne diesen Prozess für Google und unsere Nutzer vereinfachen. Hättest du eine Idee wie die Umsetzung gelingen kann. Es sollte in Zukunft immer nur eine Seite pro Stadt geben also ohne die PLZ Unterseiten. Wie könne wir sicher stellen, dass wir auch ohne die PLZ gefunden werden, wenn jemand Stadt + PLZ eingibt. Antwort: Es ist bestimmt eine gute Idee, denn aktuell sieht das auch schnell nach Doorway Pages aus. Nehmt euch am besten mal einzelne Städte raus und testet die Umstellung mal.

30.05.2017, 10:36

Frage: Habt ihr unterschiedliche Crawlingregeln für unterschiedliche CMS? Weil manche haben ja bestimmte Strukturen, die Google sicher auch versteht? Antwort: Das versuchen wir pro Seite zu machen. Wir schauen uns also nicht die CMS an, denn da kann man serverseitig ja viel ändern. Wir schauen uns die Seiten an und versuchen, dann die Strukturen zu verstehen.

05.05.2017, 39:40

Frage: Meine Seite hat etwa 500.000 Seiten, von denen 150.000 jeden Tag aktualisiert werden. Was kann ich tun, um das Crawlbudget zu maximieren? Eine Priorität in der Sitemap oder einen RSS Feed mit den letzten Updates einrichten? Antwort: 150.000 Seiten mit Updates hört sich für mich fragwürdig an. Das sieht nach automatisch generierten Inhalten aus. Manchmal macht sowas Sinn, z.B. auf einer Seite mit Wetterberichten. Aber wenn ihr eine Content Website habt, dann würde ich das mal hinterfragen. Ansonsten schauen wir uns in der Sitemap vor allem das Last Modifikation Date an. RSS ist auch immer gut, da wir durch PubSubHubbub die Dinge noch ein bisschen schneller sehen. Da gibt es auch einen aktuellen Blogpost zum Thema Crawl Budget. Meistens ist auch das Problem weniger die Menge des Budgets, sondern eher, dass wir auf euren Seiten stecken bleiben.

05.05.2017, 23:32

Frage: Wie lange dauert es, bis Google Fehler auf Seiten erkennt und das das Crawling verstärkt? Antwort: Ich bin mir nicht sicher, was du damit meinst. Crawlfehler testen wir immer mal wieder, auch nach vielen Jahren. Da müsst ihr also nichts künstlich verstecken, denn das ist technisch total ok und bringt euch keine Nachteile.

07.04.2017, 49:12

Frage: Ich sehe bei geupdateten Inhalten einen News Bot, der sich die neuen Dinge anschaut. Googlebot kommt aber nicht immer zu upgedateten Seiten, sondern nur zu neuen Seiten. Nach dem Update sende ich Googlebot immer die Info, gibt es da ein Timeout? Antwort: Ich kenne keine speziellen Regeln im Hinblick auf geupdatete URLs. Da kannst du mir mal Beispiele schicken, das würde mich sehr interessieren. Normalerweise sollte nämlich das Last Modifikation Date in der Sitemap reichen. Wir wollen auch keine API für Search Console, da viele Leute das Tool mißbrauchen und damit den Googlebot spammen. Da müssen wir eine gute Lösung finden.

07.04.2017, 32:50

Frage: Was können wir tun, um dem Bot eine perfekte Seiten zum Crawlen zu geben – also außer inline CSS zu entfernen? Antwort: Meistens ist das eher für Google News ein Problem, wo wir den ganzen Artikel rausziehen wollen. Wenn das bei einzelnen Artikeln passiert, kannst du das News Team in deren Forum kontaktieren. Ich glaube aber, dass die sich immer das Template anschauen. Je sauberer du das halten kannst, desto besser.

06.04.2017, 34:20

Frage: In unseren Logs tauchen immer wieder Crawls mit dem User Agent Media-Parters-Google auf mit einer identischen IP.  Wo kommt der her? Antwort: Soweit ich weiß ist das der Bot von AdSense. Und wenn ihr AdSense verwendet, dann solltet ihr das zulassen, wenn nicht, dann blockiert das ruhig. Diese AdSense Zugriffe benutzen wir aber nicht für die Websuche, das ist bei uns beides komplett getrennt.

06.04.2017, 23:22

Frage: wir haben uns für First Click Free bei unseren Registrierungsschranken an support.google.com – Websites mit Registrierung und Abo – News-Hilfe und den dort verlinkten weiterführenden Inhalten orientiert. Nun sind wir stutzig geworden, da wir bei „Fetch and Render“ in der Search Console in der Ansicht “So hätte ein Besucher Ihrer Website die Seite gesehen” die Schranke gerendert bekommen. Das Rendern geschieht dort augenscheinlich ohne Referrer und rendert daher die Schranke statt den Artikel, den der Crawler und Besucher mit Referrer dank First Click Free sehen können. Ist das so korrekt oder besteht die Gefahr, dass ein Automatismus hier fälschlicherweise Cloaking vermutet? Antwort: Ja das ist eigentlich korrekt. In Fetch and Render seht ihr die Variante ohne Refferrer, Googlebot sieht natürlich eine andere. Kontrolliert also, dass Googlebot die richtigen Inhalte sieht und man auch als Nutzer die richtigen Inhalte sieht, wenn man mit dem Google-Referrer aus den SERPs zu euch kommt.

06.04.2017, 22:33

Frage: Unterstützt der Googlebot “if-modified-since” / 304 “not modified” nur für HTML-Dokumente, oder bspw. auch für JS- und CSS-Dateien? Werden diese Dateien generell von den Googlebots (gemeinsam) gecacht oder immer für jede Seite neu geladen? Antwort: Ja wir unterstützen das eigentlich für alle Arten von Dateien. Ihr braucht aber saubere Header. Wenn wir Dinge wie JavaScript bei uns cachen, können wir uns einige Arbeit sparen.

04.04.2017, 47:59

Frage: Bei der letzten SMX hat Mariya Moeva gesagt, dass es ein Limit an URLs gibt, die der Googlebot crawlen kann. Was kannst du zu diesem Limit sagen? Antwort: Es gibt keine absolute Zahl als Limit. Das Limit hängt von der Website und dem Hosting ab. Da gibt es auch einen aktuellen Blogpost zum Crawl Budget von Gary Illyes zu.

04.04.2017, 14:41

Frage: Wie rendert Google die Werbung auf einer Seite? Geht es um die Anzahl der Werbung oder darum, wie viel Platz eingenommen wird? Und zählen native Ads wie Outbrain und Taboola wie reguläre Banner? Antwort: Wir versuchen die Seiten so komplett wie möglich rendern. Also wollen wir auch erkennen, wo die Anzeigen sind, damit wir sehen können, ob die Seite sich nur auf Werbung fokussiert oder auch sinnvolle Inhalte hat. Und da geht es auch um alle Ads.

09.03.2017, 03:11

Frage: Bzgl. den  “Single-Page-Applications”: Ist das wichtig für Google-Crawler, dass die pushState geladenen URLs in Browsern nicht nur ein JavaScript-Konstrukt sind, sondern tatsächlich auf eine gültige (echte URLs die bereits existieren ) Browser-Ressource zeigen? Antwort: Ja, das ist für uns wichtig. Weil wir möchten die Seite indexieren und Benutzer gezielt hinschicken. Wenn ihr also immer dieselbe URL zeigt, können wir Benutzer nicht gezielt zu den passenden Unterseiten schicken. Daher brauchen wir die URLs, die man erreichen kann. Da gibt es auch ein Video einer Rede von mir bei einer Angular Konferenz aus dem letzten Jahr. Wenn man die URLs in Search Console reinkopiert und dann die Inhalte sieht, dann sollte alles passen.

24.02.2017, 45:57

Frage: Wird Googlebot eine Seite crawlen, auch wenn wir einen 304 not modified code ausspielen? Antwort: Vielleicht. 304 heißt not modified, das macht aber nur in Verbindung mit einem if modified since header Sinn.

24.02.2017, 18:24

Frage: Blockt Google manchmal Domains für das Crawling? Antwort: Eigentlich nicht. Das passiert nur, wenn ihr auf einer IP Adresse hostet, die auf der Blacklist für schlechte IPs steht. Das hat aber auch nichts mit E-Mail Spam Blacklists oder so zu tun. Schaut euch mal die anderen Seiten auf dem Server an, dann seht ihr vielleicht, was los ist.

23.02.2017, 10:15

Frage: Gibt es ein Limit bei Verwendung von Sonderzeichen wie z Bsp. “Schweiz” , Schweiz, [Schweiz], etc. werden alle beim crawling auch entsprechend berücksichtigt? Antwort: Ich wüsste nicht, dass es da beim Crawlen oder Indexieren irgendwelche Limits geben würde. Da nehmen wir die Seite, wie sie kommt. Sonderzeichen in den Wörtern kann aber einen Einfluss haben, wenn Nutzer das nicht suchen. Wenn man z.B. “@” als “a” benutzt. Dann zeigen wir das vielleicht nicht, weil Nutzer so nicht suchen. Aber mit normalen Zeichen oder Emojis sollte es keine Probleme geben. Und finden werden wir die Inhalte immer.

10.02.2017, 59:25

Frage: Bei Fetch as Google sehe ich alle Ressourcen. Stehen diese auch unter Pages Downloaded in Search Console? Und sollte man eher Parameter oder Canonicals nutzen? Antwort: Ja jede URL bzw Ressource sollte dort stehen. Wenn ihr also viele große Dateien habt, werden die ihr durchschnittliche Seitengröße anwachsen sehen. Mit dem Parametertool können wir rausarbeiten, welche wir ignorieren können. Mit den Canonical können wir nach dem Crawlen sehen, was wir tun sollen. Das sind also unterschiedliche Schritte. Stellt also sicher, dass die nicht gegeneinander stehen.

10.02.2017, 24:25

Frage: Mein Shop hat 25 Millionen Seiten und Google crawlt nicht effizient. 80% der 6 Millionen URLs, die pro Tag gecrawlt werden, sind Verifizierungen von Google Shopping. Wie kann man das besser steuern? Antwort: Ich weiß nicht, wie viel Google Shopping normalerweise crawlt. Sie schauen sich aber glaube ich die Landing Pages immer wieder an. Das Google Shopping ist glaube ich auch Teil des normalen Crawlbudgets. Es macht für uns auch oft SInn, Seiten nicht jeden Tag wieder zu crawlen. Denn das Crawlen führt ja auch nicht zu besseren Rankings. Das Crawlen wäre nur wichtig, wenn sich eure Inhalte immer wieder ändern.

10.02.2017, 08:24

Frage: Der Bot hat eine Chicago Postleitzahl als URL Parameter bei uns eingebaut. Ist das normal? Wir sind in San Diego. Antwort: Das passiert nicht so oft. Aber wenn wir eine Seite sehen, wo wir mehr Inhalte erwarten, dann geht das. Z.B wenn wir ein Suchformular finden, dann versuchen wir, da verschiedene Varianten zu sehen.

09.02.2017, 52:50

Frage: URL Fehler, Antwortcode 503. Was bedeutet das? Antwort: 503 ist ein temporärer Fehler, der uns sagt, dass wir aktuell keine Informationen vom Server bekommen können. Das macht Sinn, wenn man etwas umbaut und weiß, dass der Server bald wieder erreichbar ist.

27.01.2017, 09:42

Frage: Haben Newsseiten und Shops eine andere Crawlrate? Denn wenn Inhalte da nur alle paar Tage gecrawlt werden, sind sie ja gar nicht mehr aktuell. Antwort: Da solltet ihr euch den aktuellen Blogpost zum Thema Crawlbudget anschauen. Wir schauen uns an, wie oft sich die Seiten ändern. Aber wir schauen auch, wie wichtig es für uns ist, immer up to date zu sein. Bei Aggregatoren ist das zum Bespiel von begrenztem Wert. Wir crawlen auch nicht alle Unterseiten einer Seite gleich oft.

27.12.2016, 35:59

Frage: Warum gibt es bei den Crawl Errors nie Reports, die wenigstens zu 50% korrekt sind? Antwort: Der Report in Search Console fokussiert sich auf das, was wir wirklich beim Crawlen gesehen haben. Das ist also sehr akkurat. Aber nicht alle Fehler sind ein Problem. Es ist also z.B. so, dass eine gesunde Seite einige 404er zurückgeben sollte. Wir zeigen sie euch nur für den Fall, dass sie versehentlich vorkommen.

20.12.2016, 35:59

Frage: Wir würden gerne die URL Parameter Funktion nutzen, um Crawlbudget zu sparen. Aber online gibt es dazu unterschiedliche Meinungen. Antwort: Das Parameter Tool macht Sinn, um unterschiedliche Parameter für das Crawlen anzulegen. Es ist keine Garantie, dass wir das nie Crawlen werden, aber wenn wir sehen, dass wir die Parameter eigentlich nicht brauchen, dann hilft uns das und wir werden uns auch daran halten.

16.12.2016, 32:19

Frage: Nochmal wegen den Magazinen auf dem gleichen CMS: Wie können wir Referrer in den Server Logs finden, um diese falschen Links ausfindig zu machen? Antwort: Ihr würdet das nicht in den Server Logs sondern in der 404 Fehler Sektion von Search Console finden. Da gibt es den Tab “Link from” und da seht ihr die Quelle.

16.12.2016, 02:25

Frage: Wir haben 8 verschiedene Magazine in einem CMS. In letzter Zeit indexiert Google Artikel von einem Magazin unter der Domain eines anderen Magazins. Wir haben schon alles neu gecrawlt und auch die Server Logs angesehen. Aber wo kann man sehen, wo Googlebot diese URLs herholt?? Antwort: Wir haben viele Mechanismen, um Duplikate zu erkennen. Einer davon ist vielleicht bei euch aktiv und die entsprechenden Seiten sehen für uns gleich aus. Vielleicht habt ihr überall die gleiche URL-Struktur und gleiche Inhalte. Stellt also sicher, dass alle URLs eigenständige Inhalte haben.

06.12.2016, 09:35

Frage: Gilt die Regel: Je mehr Crawling, desto besser? Antwort: Ihr müsst nicht die ganze Zeit in Search Console oder in Sitemaps Dinge einreichen. Mehr Crawlen ändert gar nichts am Ranking. Wir zeigen eh das, was wir kennen. Da brauchen wir es nicht mehrfach crawlen.

06.12.2016, 08:43

Frage: Wird es der Seite schaden, wenn man das Crawlbudget ignoriert? Antwort: Bei Google haben wir nicht wirklich das Konzept des Crawlbudgets, wie es von SEOs verwendet wird. Wir wollen dazu bald auch noch einen erklärenden Blogpost veröffentlichen. Meistens ist es so, dass ihr nichts machen müsst, wenn ihr eine normal große Website habt. Da müsst ihr keine internen Links verstecken, Noindex nutzen oder ähnliche Dinge machen. Ihr müsst einfach sicher gehen, dass euer Server für die Größe eurer Seite ausgelegt ist.

02.12.2016, 45:22

Frage: Ist es ein Problem, wenn ich spammige Referrals aus Russland von meiner Seite blockiere? Antwort: Solange Googlebot nicht von dort crawlt, ist das egal. Aber Nutzer von dort können dann ja nichts mehr sehen und euch auch nicht mehr verlinken.

02.12.2016, 27:29

Frage: Google crawlt bei mir etwa 700.000 Seiten pro Tag, aber laut meiner Sitemap werden nur 2000 pro Tag indexiert. ich habe 2 Mio. Seiten, wie lange dauert es, bis die alle indexiert sind? Antwort: Da gibt es viele Aspekte. In Search Console wird da alles gezählt, also auch eingebettete Inhalte. Und wir crawlen Seiten, die wir wichtig finden oder die sich oft ändern, häufiger. Andere Seiten crawlen wir dafür kaum. Die Sitemap bezieht sich auch nur auf die exakte URL, wenn ihr also unterschiedliche Varianten habt, dann wird das dort nicht gezählt. Und dann müssen wir erstmal alle Varianten crawlen und uns dann eine für die Indexierung aussuchen. Schaut euch also nicht nur die Anzahl an, sondern schaut, ob wir die richtigen Seiten indexieren. Ist das nicht der Fall, müsst ihr uns durch eine bessere Struktur helfen. Qualität ist ein Faktor, wenn wir die Crawlhäufigkeit bestimmen. Aber auch andere Dinge wie die interne Verlinkung. Es kann tolle Seiten geben, die sich nie ändern und die wir deswegen fast nie crawlen. Auf der anderen Seite werden wir auch eine Seite, die wir schlecht finden, nicht mehr so viel crawlen. Allgemein würde ich immer Search Console für solche Abfragen nutzen, nicht die Seitenanfrage. Am besten sind dafür aber eigentlich Sitemaps geeignet.

02.12.2016, 01:15

Frage: Wie können wir Google dazu bringen, Seiten zu crawlen, die bis vor Kurzem noch 404 waren und jetzt wieder Inhalte haben? Antwort: Wir schauen uns solche Seiten immer mal wieder automatisch an. Aber ihr könnt ein paar Seiten in Search Console mit Submit to Index einreichen. Bei vielen Seiten empfehle ich eine Sitemap mit dem aktuellen Last Modification Date.

01.12.2016, 30:20

Frage: Ich habe eine Frage bzgl. eines Testszenarios. Ein größerer Kunde möchte Versionen seiner neu gestalteten Website gern über eine Cookieweiche testen. Dabei soll anhand einer User-Agent Erkennung dem Client ein Cookie mitgegeben werden. Bei erneutem Aufruf durch diesen Client wird nach positiv abgefragtem Cookie die neue Version eines Websitedokuments an den Client ausgeliefert. Allerdings unter der gleichen URL. Nun gibt es hierbei leider unterschiedliche Aussagen. Laut Google Webmasterforum kann ein Test über einen bestimmten Zeitraum problemlos vonstattengehen, ohne das hierbei mit Konsequenzen zu rechnen ist. Allerdings sollte die Zeit des Tests auf eine sinnvolle Dauer begrenzt werden. Zudem herrscht bei einigen die Meinung, dass ein Crawler diese Testseiten nicht crawlen kann, da diese ja erst mit benötigtem Cookie erreichbar sind. Da der Kunde über einen längeren Zeitraum von mehreren Wochen testen möchte, habe ich die Befürchtung dass dieses als Betrugsversuch gewertet werden kann, obwohl es weiterhin nur der Test ist. Meine Frage ist erstens, ob es für Google über diese Methodik problematisch ist und diese Vorgehensweise als negatives Signal gewertet werden kann. Und zweitens, ob ein Crawler trotzdem an solche Seiten kommen kann, auch wenn eine Cookieweiche implementiert ist. Antwort: Das sollte kein Problem sein. Wir nehmen ja meist keine Cookies auf, Googlebot würde also eher nicht in dieses Testszenario reinfallen. Das Webspam Team würde da auch nichts wegen Cloaking machen, denn A/B Tests sind ja etwas gutes. Aber Googlebot muss immer wie ein normaler Nutzer behandelt werden und darf keine speziellen HTML Anweisungen bekommen.

01.12.2016, 24:44

Frage: Wir haben bald einen physischen Serverumzug, der Server zieht also von Stadt A nach B. Das ganze soll ~ 10 Stunden da