Crawling & Googlebot

Werbung

 


02.12.2016, 45:22

Frage: Ist es ein Problem, wenn ich spammige Referrals aus Russland von meiner Seite blockiere?

Antwort: Solange Googlebot nicht von dort crawlt, ist das egal. Aber Nutzer von dort können dann ja nichts mehr sehen und euch auch nicht mehr verlinken.


02.12.2016, 27:29

Frage: Google crawlt bei mir etwa 700.000 Seiten pro Tag, aber laut meiner Sitemap werden nur 2000 pro Tag indexiert. ich habe 2 Mio. Seiten, wie lange dauert es, bis die alle indexiert sind?

Antwort: Da gibt es viele Aspekte. In Search Console wird da alles gezählt, also auch eingebettete Inhalte. Und wir crawlen Seiten, die wir wichtig finden oder die sich oft ändern, häufiger. Andere Seiten crawlen wir dafür kaum. Die Sitemap bezieht sich auch nur auf die exakte URL, wenn ihr also unterschiedliche Varianten habt, dann wird das dort nicht gezählt. Und dann müssen wir erstmal alle Varianten crawlen und uns dann eine für die Indexierung aussuchen. Schaut euch also nicht nur die Anzahl an, sondern schaut, ob wir die richtigen Seiten indexieren. Ist das nicht der Fall, müsst ihr uns durch eine bessere Struktur helfen. Qualität ist ein Faktor, wenn wir die Crawlhäufigkeit bestimmen. Aber auch andere Dinge wie die interne Verlinkung. Es kann tolle Seiten geben, die sich nie ändern und die wir deswegen fast nie crawlen. Auf der anderen Seite werden wir auch eine Seite, die wir schlecht finden, nicht mehr so viel crawlen. Allgemein würde ich immer Search Console für solche Abfragen nutzen, nicht die Seitenanfrage. Am besten sind dafür aber eigentlich Sitemaps geeignet.


02.12.2016, 01:15

Frage: Wie können wir Google dazu bringen, Seiten zu crawlen, die bis vor Kurzem noch 404 waren und jetzt wieder Inhalte haben?

Antwort: Wir schauen uns solche Seiten immer mal wieder automatisch an. Aber ihr könnt ein paar Seiten in Search Console mit Submit to Index einreichen. Bei vielen Seiten empfehle ich eine Sitemap mit dem aktuellen Last Modification Date.


01.12.2016, 30:20

Frage: Ich habe eine Frage bzgl. eines Testszenarios. Ein größerer Kunde möchte Versionen seiner neu gestalteten Website gern über eine Cookieweiche testen. Dabei soll anhand einer User-Agent Erkennung dem Client ein Cookie mitgegeben werden. Bei erneutem Aufruf durch diesen Client wird nach positiv abgefragtem Cookie die neue Version eines Websitedokuments an den Client ausgeliefert. Allerdings unter der gleichen URL. Nun gibt es hierbei leider unterschiedliche Aussagen. Laut Google Webmasterforum kann ein Test über einen bestimmten Zeitraum problemlos vonstattengehen, ohne das hierbei mit Konsequenzen zu rechnen ist. Allerdings sollte die Zeit des Tests auf eine sinnvolle Dauer begrenzt werden.
Zudem herrscht bei einigen die Meinung, dass ein Crawler diese Testseiten nicht crawlen kann, da diese ja erst mit benötigtem Cookie erreichbar sind.
Da der Kunde über einen längeren Zeitraum von mehreren Wochen testen möchte, habe ich die Befürchtung dass dieses als Betrugsversuch gewertet werden kann, obwohl es weiterhin nur der Test ist. Meine Frage ist erstens, ob es für Google über diese Methodik problematisch ist und diese Vorgehensweise als negatives Signal gewertet werden kann. Und zweitens, ob ein Crawler trotzdem an solche Seiten kommen kann, auch wenn eine Cookieweiche implementiert ist.

Antwort: Das sollte kein Problem sein. Wir nehmen ja meist keine Cookies auf, Googlebot würde also eher nicht in dieses Testszenario reinfallen. Das Webspam Team würde da auch nichts wegen Cloaking machen, denn A/B Tests sind ja etwas gutes. Aber Googlebot muss immer wie ein normaler Nutzer behandelt werden und darf keine speziellen HTML Anweisungen bekommen.


01.12.2016, 24:44

Frage: Wir haben bald einen physischen Serverumzug, der Server zieht also von Stadt A nach B. Das ganze soll ~ 10 Stunden dauern. Sollten wir hier etwas beachten? Was passiert wenn der googleBot genau in der Zeit kommt in der der Server (sowie die Domain) nicht erreichbar ist?

Antwort: Gebt einfach einen klaren Fehlercode wie 503 zurück (dann ignorieren wir die Inhalte und kommen später wieder vorbei) und habt eine gute Fehlerseite für die Nutzer. 503 ist aber nichts für mehrere Tage oder Wochen, denn dann sehen wir es nicht mehr als temporär.


11.11.2016, 32:45

Frage: In zahlreichen unserer Länder sehen wir seit dem 11. Oktober eine drastische Abnahme an KB welche pro Tag heruntergeladen werden – auch scheint sich die Zahl der pro Tag gecrawlten Seiten seit diesem Zeitpunkt kontinuierlich zu senken. Kann ein CDN switch hier etwas mit zu tun haben?

Antwort: Da kommen mehrere Faktoren auf unserer Seite zusammen. Unsere Systeme passen sich automatisch an euren Server an. Wenn wir also große Veränderungen sehen, dann gehen wir vielleicht auf Nummer Sicher und crawlen erstmal weniger. Wenn wir dann mit der Zeit sehen, dass wir mehr crawlen können, dann machen wir das. Und wenn wir sehen, dass der Server immer langsamer wird, dann crawlen wir weniger. Im Hilfecenter gibt es einen Link, auf dem ihr Crawlingfehler melden könnt. Da könnt ihr das Formular ausfüllen, damit das Team das anpassen kann. Das geht dann meistens innerhalb von ein paar Tagen. Da geht es aber nur um das Crawlen, nicht um das Ranken.


04.11.2016, 15:00

Frage: Wir wollen einige Teile unserer Seite vom Crawling ausschließen, indem wir in robots.txt

User-agent: *
Disallow: /folder-x/

nutzen. Kann das zu Problemen mit Werbeplattformen wie Google AdSense führen?

Antwort: Ich weiß nicht, wie AdSense damit umgeht. Da kann ich also nichts zu sagen. Da sollte es aber eine Dokumentation im Hilfecenter geben. Meistens folgen User Agents den genauesten Anweisungen. Da könnt ihr das robots.txt Testing Tool in Search Console nutzen.


21.10.2016, 44:20

Frage: Du hast gesagt, dass Google das Crawl-Limit per Server, nicht per Seite setzt. Was heißt das genau?

Antwort: Wir versuchen, das passende Grouping zu finden. Das kann pro IP oder pro Server sein. Da ist aber nichts in Stein gemeißelt. Dinge können auch kombiniert oder klassifiziert werden. Nur weil ihr viele Seiten habt, sollten wir ja nicht das Crawlen verlangsamen – sondern es lieber aufsplitten, um so viele Inhalte wie möglich zu sehen. Die meisten Seiten können wir in der Praxis auch vernünftig crawlen. Wenn Nutzer eure Seite richtig ansehen können und euer Server durch das Crawlen nicht in die Knie geht, dann können wir wahrscheinlich alles sehen. Wenn ihr aber zu wenig oder zu viel Crawling seht, dann könnt ihr das Googlebot Team im Hilfecenter kontaktieren und eure Probleme mitteilen. Bedenkt aber, dass mehr Crawlen nicht mehr oder besser ranken bedeutet.


20.10.2016, 47:19

Frage: Kann Googlebot mit Websockets umgehen?

Antwort: Aktuell nicht. Ich weiß nicht, ob das noch kommen wird.


07.10.2016, 39:28

Frage: Ist es ein Problem für das Crawlbudget, wenn wir viele Noindex, Nofollow haben?

Antwort: Meistens müssen Seiten sich nicht um das Crawlbudget kümmern. Alle Seiten, die auf vernünftigen Servern sind, sollten wir genug crawlen können. Wenn das ein Problem ist, dann solltet ihr die robots.txt nutzen und vielleicht die URL-Struktur anpassen (Parameter entfernen, viele URLs die auf denselben Content zeigen, aufräumen). Mehr Crawlen heißt auch nicht, dass die Inhalte besser ranken. Crawlen ist nur die technische Voraussetzung für das Ranken.


07.10.2016, 26:35

Frage: Meine Seite hat wohl mehr als 120 HTML Fehler, kann das negative Einflüsse haben?

Antwort: Der Großteil des Internets ist irgendwo kaputt und wir können damit immer besser umgehen. Viele andere Seiten haben kaputtes HTML und wir zeigen die meisten davon problemlos in den SERPs. Auch für die Crawlrate sollte es keine Nachteile geben, für das Ranking direkt auch nicht. Außer natürlich, wenn auch Nutzer es nicht benutzen können. Dann werdet ihr da Probleme sehen. Und wenn ihr strukturierte Daten nutzen wollt, dann sehen wir sie vielleicht bei kaputtem HTML nicht. Problematisch kann es auch sein, wenn der Head der HTML Seite kaputt ist. Dann denken wir vielleicht, dass alles nach dem Fehler als Body zählt und dann sehen wir Dinge wie das robots meta Tag nicht.


23.09.2016, 42:25

Frage: Rankt eine Seite sofort, nachdem man sie geupdated hat, oder kann es auch Verzögerungen geben, die auf der Stärke der Seite basieren?

Antwort: Keine Ahnung. Wenn wir sehen, dass etwas wichtig sein könnte, kann es auch nur wenige Minuten dauern. Wenn auf einer Seite aber nur seltene Änderungen kommen, dann kann das auch mal dauern. Und dazwischen gibt es auch viel Raum.


23.09.2016, 41:20

Frage: Ich möchte die Crawlability meiner Seite verbessern. Wird es helfen, wenn ich etwa 50% der paginierten Seiten loswerde?

Antwort: Ich verstehe nicht ganz, was ihr da geändert habt. Aber weniger, dafür starke Seiten zu haben, ist immer eine gute Idee.


23.09.2016, 28:40

Frage: Haben die Http Fehler 803 oder 503 Einfluss auf die SEO einer Website?

Antwort: Das sind Serverfehler, wenn Googlebot also die Inhalte nicht sieht, dann können wir die Dinge nicht indexieren. 503 ist aber eine vorläufige Sache, da schauen wir dann später wieder vorbei. Sie werden auch oft genutzt, um Wartungsarbeiten anzuzeigen – und sind da besser als ein 500er.


23.09.2016, 16:25

Frage: Wie crawlt Google, dass solche Seiten (https://direct.homequote.co-operativeinsurance.co.uk/public/aboutyouandcontactingyou.aspx) im Index erscheinen, die nicht die Nutzerintentionen befriedigen?

Antwort: Ich habe mir die URL nicht angeschaut. Crawling ist aber eine technische Sache, bei der wir die Inhalte nicht bewerten. Das passiert erst beim Ranken.


09.09.2016, 1:05:45

Frage: Was passiert, wenn wir eine Hompage löschen und die Stadtseiten zur Homepage machen? Es sind lokale Produkte und so würden Nutzer z.B. aus Delhi direkt auf der passenden Seite landen.

Antwort: Ihr müsst vorsichtig sein, wenn ihr Inhalte je nach dem Ort des Nutzers anbietet. Googlebot crawlt vor allem aus den USA und würde Dinge für Delhi gar nicht sehen.


08.09.2016, 02:29

Frage: Wie kann man dafür sorgen, dass eine Seite schneller wieder gecrawlt wird. Oft sind in unseren Preis-Snippets noch veraltete Preise zu sehen, während sie auf der Seite schon aktualisiert wurden.

Antwort: Schreibt die Änderung als Last Modified in die Sitemap. In Sitemaps könnt ihr alles mögliche eintragen. Es muss aber sinnvoll sein, sodass wir lernen, dem File zu vertrauen. Also nicht Last Modified für alles auf heute setzen – es muss der Wahrheit entsprechen.


06.09.2016, 22:27

Frage: Unser Geblockte Ressourcen Report zeigt einen externen Host an, der für die Tracking Codes auf allen unseren Seiten genutzt wird. Deren robots.txt disallowed deren ganze Domain. Es hat keinen sichtbaren Einfluss auf den Service. Müssen wir da etwas tun?

Antwort: Grundsätzlich nicht. Meistens sehr ihr im Report auch, ob das eine wichtige Ressource ist – das können wir aber nicht immer bestimmen. Wenn es keinen sichtbaren Einfluss hat, dann ist das kein Problem. Hat es aber einen Einfluss – z.B. eine API die eine Karte anzeigt – dann wäre das etwas, was wir indexieren möchten. Aber Tracking Codes oder Pixel sind nichts, was ihr für das Crawlen freischalten müsstet.


06.09.2016, 15:10

Frage: Wir haben A/B Tests mit unseren Inhalten. Was sollen wir Google am besten zeigen?

Antwort: Grundsätzlich sollte Googlebot beide Versionen sehen können – mit einem Canonical auf der Standardversion. Wir crawlen dann beide, sehen das und klappen sie zusammen. Durch robots.txt können wir die eine Version nicht sehen und wissen daher nicht, was die Verbindung zwischen den beiden ist. Wenn die URL gleich ist, dann behandelt Googlebot einfach als normalen Nutzer und zeigt mal die eine Version, mal die andere. Wenn die Inhalte total unterschiedlich sind (z.B. einmal Text einmal Bilder), dann ist es natürlich schwerer. Aber grundsätzlich ist so etwas kein Problem für Googlebot.


26.08.2016, 09:39

Frage: Ich habe meine Inhalte geändert, aber Google hat die Seiten nach 7 Tagen immer noch nicht gecrawlt – jedenfalls sehe ich im Cache nichts dazu. Ich habe eine Sitemap und eine dynamische Seite.

Antwort: Du kannst interne Links von der Homepage aus setzen. Du kannst eine Sitemap mit dem letzten Änderungsdatum erstellen und uns diese zur Verfügung stellen. Wenn es nur eine Seite ist, dann kannst du die Seite in Abruf wie durch Google an den Index schicken. Grundsätzlich repräsentiert der Cache nicht immer, was wir beim Indexieren machen. Eine Seitenabfrage für die entsprechenden Keywords würde da eher helfen. Wenn deine Seite JavaScript ist, dann würden wir sie erst rendern, und das zeigen wir nicht im Cache.


25.08.2016, 13:56

Frage: Ein Relaunch ist so geplant, dass über einen Zeitraum von 4-6 Wochen per Weiche erst 20, dann 40, am Ende 100 % der Besucher auf der neuen Website landen. Wie ist die Empfehlung für den Googlebot? Ihn erst auf die neue Website lassen, wenn 100 % erreicht sind?

Antwort: Das ist eine schwierige Frage. Googlebot sollte wie ein normaler Benutzer behandelt werden. Wenn neue Nutzer per Zufall auf der neuen Seite landen, dann solle Googlebot auch im Zufallsprinzip landen. Ihr müsst ihr sauber mit dem Canonical arbeiten, damit wir uns beim indexieren auf eine konzentrieren. Da könnt ihr euch eine aussuchen, ich würde aber eher die neue nehmen.


23.08.2016, 16:14

Frage: Würde Google den Text aus einen Social Feed crawlen, wenn man diesen in eine Seite einbaut? Und hätte das Auswirkungen auf das Ranking?

Antwort: Ich denke, es geht nicht um RSS Feeds, sondern einen Feed von anderen Seiten wie Twitter. Und in solchen Fällen würden wir die von dir genutzte Methode (also JavaScript oder ähnliches) ansehen, die Inhalte ziehen und sie als Inhalte für deine Seite werten. Und das würde dann auch für das Ranking zählen. Das kann dann positive oder negative Folgen haben. Wenn die Feeds aber zusätzlichen Mehrwert für die Nutzer bereitstellen, dann macht das ruhig.


12.08.2016, 10:42

Frage: Mein Kunde hat für Seiten, die täglich geupdated werden, die “Expires” Header auf ein Datum von vor 20 Jahren gesetzt und die Cache Control header auf “no-cache” gestellt. Ist das ein Problem für das Crawlen und Indexieren?

Antwort: Das ist euch überlassen. Das ist mehr für den Nutzer relevant. Wenn ihr also wollt, dass Nutzer den Cache immer leeren, dann macht das Sinn. Wenn ihr aber statische Inhalte habt, dann macht das keinen Sinn. Denn sie müssten immer wieder cachen und das kann dauern. Bei uns kann es nur bei eingebetteten Inhalten einen Einfluss haben – z.B. JavaScript. Das würde es dann etwas verlangsamen, wenn wir es immer wieder rendern müssen.


09.08.2016, 47:15

Frage: Wie kann ich Google über meine Offpage Aktivitäten auf dem Laufenden halten?

Antwort: So etwas gibt es nicht. Ihr braucht da nichts machen. Wir crawlen die Seiten und finden dann heraus, was relevant ist.


09.08.2016, 36:06

Frage: Wie können wir die Crawlhäufigkeit unserer Seite erhöhen? Viele meiner Seiten sind im Index, wurden aber seit Monaten nicht gecrawlt – neue Inhalte und Titles werden daher nicht gesehen. Woran kann das liegen?

Antwort: Wir nutzen hier mehrere Faktoren. Wir wollen immer so effizient wie möglich crawlen. Manche Seiten, die sich oft ändern oder die wir wichtig finden, crawlen wir dann häufiger. Andere nicht so oft, vielleicht nur alle paar Monate. Ihr könnt folgendes tun, um uns auf Änderungen hinzuweisen: Eine gute interne Verlinkung von der Hauptseite oder den besseren Seiten. Ansonsten könnt ihr auch eine Sitemap erstellen und dort das Last Modification Datum angeben. Dann gleichen wir das ab und schauen es uns wieder an. Mehr Crawling heißt aber nicht, dass ihr besser ranken werdet. Crawling ist nur die technische Voraussetzung für das Ranking, aber kein Faktor.


09.08.2016, 04:54

Frage: Spielt Crawl-Scheduling bei großen Seiten eine Rolle? Also wenn sich URLs ändern, crawlt Google trotzdem auf der Grundlage ihrer Historie und hält sich an den alten Schedule?

Antwort: Wir können nicht einfach alles auf einmal crawlen. Man kann schon sagen, dass der alte Schedule weiter zählt. Wir versuchen immer, den effizientesten Weg zu Crawlen zu finden. Wir müssen uns also einen Plan machen und versuchen, die “wichtigsten” Sachen häufiger zu crawlen. Oft kann man aber auch alte Inhalte noch für Monate sehen.


08.07.2016, 50:42

Frage: Ich bin zu einem CDN (Cloudfare) gewechselt. Zuerst wurde viel gecrawlt, aber nun viel weniger. Kann das am CDN liegen?

Antwort: Ja das kann sein. Für uns sieht das aus wie eine neue Serverstruktur. Das heißt, das Crawling muss sich erst einspielen. Du kannst das aber mit dem Crawlrate Feedback beschleunigen.


08.07.2016, 14:03

Frage: In den letzten Tagen wurde laut Search Console erheblich mehr gecrawlt. Was kann das bedeuten – und ist das gut oder schlecht?

Antwort: Das ist schwer zu sagen, das könnte vieles sein. Vielleicht wollen wir unbedingt mehr crawlen, weil wir deine Seite so toll finden. Wir denken aber offensichtlich, dass euer Server so viel Crawlen aushalten kann, und das ist auf jeden Fall gut. Es kann aber auch sein, dass die ganzen neuen Seiten Duplikate sind. Das könnt ihr in den Server Logs prüfen.


01.07.2016, 45:32

Frage: Wie lange braucht eine Seite, um sich davon zu erholen, dass JavaScript und Bilder für den Googlebot blockiert waren? Ich warte bei einer Seite seit zwei Monaten.

Antwort: Wahrscheinlich würden wir anfangen, die Bilder zu indexieren und sie in der Bildersuche zu zeigen. Und bei Bildern dauert dieser Prozess länger als in der Websuche. Wenn das JavaScript nicht aktiv Inhalte kreiert hat, dann sind in der Websuche auch keine großen Änderungen zu erwarten.


17.06.2016, 42:43

Frage: Verwendet Google No Follow-Links für die URL-Indexierung? Mit anderen Worten: Wenn ein No Follow-Link auf eine URL verweist und wenn es keine anderen Hinweise auf eine URL im Internet gibt, wird sie dann gecrawled oder indexiert?

Antwort: Normalerweise nicht. Aber es kommt nur sehr selten vor, dass nur eine Referenz für eine URL angeführt wird. Ich würde mich nicht auf No Follow-Links verlassen, die ein Crawling oftmals nicht blockieren. Wenn du das Crawling blockieren möchtest, verwende bitte robots.txt.


17.06.2016, 22:55

Frage: Wenn du anmerkst, dass wir vorsichtig mit Änderungen auf unseren Webseiten umgehen sollen. Bedeutet das für uns, dass wir darauf achten sollen, Änderungen an Webseiten nicht zu häufig vorzunehmen?

Antwort: Ich bin mir nicht ganz sicher, auf welche Aussage du diese Frage genau zurückführst. Generell spricht nichts dagegen, Änderungen an Webseiten vorzunehmen. Allerdings solltet ihr der Meinung sein, dass diese Änderungen wirklich notwendig sind. Bei den meisten Webseiten ist es ganz normal, dass regelmäßig Änderungen durchgeführt werden. Wir betrachten Änderungen nur in seltenen Fällen kritisch.


17.06.2016, 15:03

Frage: Ich bediene A-/B-Tests zum Großteil mithilfe von Adobe-Software. Wenn diese Tests über einen Googlebot besucht werden, droht dann eventuell eine Strafe? Was ist die empfohlene Dauer für einen A-/B-Test?

Antwort: Unserer Meinung nach solltest du den Googlebot wie jeden anderen Nutzer sehen. Das heißt, wenn du diese Tests durchführst, fällt der Googlebot wahrscheinlich in eine der Kategorien. Wichtig ist, dass du den Googlebot wie jeden anderen Benutzer behandelst. Für die Dauer der Tests gibt es keinen vorgeschriebenen Zeitraum.


02.06.2016, 12:23

Frage: Ist link prefetching nützlich für Googlebot?

Antwort: Ich glaube, wir verwenden das überhaupt nicht. Für Benutzer kann das aber sinnvoll sein und das Surfen schneller machen.


02.06.2016, 08:24

Frage: Die Seiten, die auf eine kanonische Seite verweisen, werden theoretisch mit der gleichen Häufigkeit durchgesucht?

Antwort: Meistens wird dann eher bzw. häufiger das Canonical gecrawlt. Die andere nur gelegentlich.


17.05.2016, 00:52

Frage: Wenn Googlebot unterwegs ist und währenddessen auf Seiten stößt, die wichtiger sind als die, die er eigentlich auf seiner Liste hatte: Würde Googlebot diese dann besuchen, wenn sie wirklich wichtig sind?

Antwort: Ja, würde er. Manchmal kommen Sachen unerwartet – zum Beispiel neue Veröffentlichungen – und dann reagieren wir und crawlen sie auch. Wir werden aber nicht immer an die Grenze der Serverkapazität gehen. Denn wir wollen immer sicher stellen, dass die Seite auch dann für normale Nutzer perfekt läuft, wenn wir gerade crawlen.


15.04.2016, 20:36

Frage: Wir haben für mehrere Wochen viele Crawls von Applebot erhalten. Kann das wegen des künstlichen Traffics und der Dauer der Seitenaufrufe schlecht für SEO sein?

Antwort: Wir sehen solche Dinge nicht, da wir nicht Applebot sind. Das hat bei uns also keinen Einfluss. Ihr müsst wissen, wie viel ihr von Apple gecrawlt haben wollt.


08.04.2016, 19:54

Frage: Andrey von Google hat von “alten Faktoren” gesprochen, als es um das Crawl-Budget ging. Gibt es denn noch andere Faktoren außer PageRank und Speed? Zum Beispiel die Frische der Inhalte oder die Häufigkeit an Änderungen?

Antwort: Ich denke, dass wir normalerweise das tun, was Sinn macht. Es gibt ein Maximum, wie viel wir crawlen können, ohne den Server belasten. Für die meisten Seiten reizen wir das normalerweise nicht aus, damit wir es immer in beide Richtungen anpassen können. Dinge wie Häufigkeit können eine Rolle spielen, dass wir es dann häufiger crawlen. Das heißt aber nicht, dass es dann besser rankt. Es wird nur schneller erkannt. Bei Seiten-Umzügen ist es zum Beispiel manchmal so, dass wir etwas mehr crawlen, um alle Neuerungen zu sehen. Wenn wir sehen, dass eine Homepage aus dem Index fällt, dann werden wir sie zum Beispiel auch öfter crawlen als die anderen Unterseiten der Website, um zu sehen, wann das Wichtigste wieder da ist.

Wir versuchen immer, herauszufinden, ab wann sich Crawlen nicht mehr lohnt, weil man nichts sinnvolles mehr findet. Das kann man im Nachhinein gut sehen, aber während des Crawlens ist es schwer. Die Teams versuchen dann, Muster zu erkennen, Beispielsweise in Kalendern. Uns hilft immer auch eine gute interne Verlinkung.


05.04.2016, 40:25

Frage: Wie bekomme ich Google dazu, meine Seite schneller zu crawlen?

Antwort: Auf der einen Seite müsst ihr aufpassen, dass euer Server so etwas aushalten könnte. Wir müssen erkennen, dass wir keine Probleme verursachen, wenn wir schneller crawlen. Außerdem müssen wir neue Inhalte vorgesetzt bekommen. Damit wir von neuen Inhalten hören, könnt ihr eine Sitemap nutzen. Mehr Crawlen heißt aber nicht, dass ihr automatisch besser ranken werdet.


24.03.2016, 04:30

Frage: Was passiert mit dem Googlebot, wenn der Location Header nicht-englische Buchstaben enthält, zum Beispiel Kyrillisch?

Antwort: Für uns sind nicht-englische Buchstaben ok, wir versuchen, die richtig zu erkennen. Benutzt aber UTF-8.


26.02.2016, 26:06

Frage: Ist bei einer Seite mit 30.000 einzigartigen URLs eine Crawlrate von 5000 pro Tag ein gutes oder schlechtes Zeichen?

Antwort: Das sollte ok sein. Merkt euch aber, dass das nicht heißt, dass wir irgendwelche URLs crawlen. Manche crawlen wir oft und andere seltener. Das heißt also nicht, dass wir nach sechs Tagen eure ganze Seite einmal durchgecrawlt haben. Mehr crawlen heißt auch nicht, dass wir die Seite als besser erachten oder sie besser ranken.


29.01.2016, 29:48

Frage: Wir haben ein Problem, da die Metrik “Zeit zum Downloaden der Seite” ansteigt, wenn unser Traffic ansteigt.

Antwort: Meistens wird Googlebot die Seite dann langsamer crawlen, damit wir nicht dem richtigen Traffic im Weg stehen. Es kann auch sein, dass die Zahl ansteigt, weil wir zeitgleich eure größten Seiten crawlen. Aber ich muss mir den Thread einmal anschauen. Schaut euch einmal die Serverlogs an.


29.01.2016, 23:11

Frage: Worauf müssen wir achten, wenn wir SPT einsetzen wollen, um eine extrem schnelle UX zu erhalten?

Antwort: Wie gesagt solltet ihr darauf achten, dass wir alles crawlen können. Nutzt dafür Search Console. Und testet es vielleicht erst einmal auf ein paar Seiten, bevor ihr es für die ganze Website nutzt.


26.01.2016, 27:40

Frage: Es gibt viele Fake-Bots. Was tut Google, um diese von Websites fernzuhalten?

Antwort: Wir können hier nichts tun. Fake-Bots sind Leute, die ein Script oder den Google User Agent nutzen. Wir haben da keine Handhabe. Aber wenn ihr das seht, dann könnt ihr den Reverse IP Lookup nutzen. So kann man sicher gehen, dass es sich wirklich um Google handelt. Eine Anleitung dazu gibt es im Hilfecenter.


26.01.2016, 11:48

Frage: Wir haben von Google eine Warnung erhalten, dass wir viele URLs haben. Hat Google daher Probleme, unsere Seite zu crawlen?

Antwort: Wenn wir viele neue URLs sehen, dann senden wir diese Nachricht. Aber diese sind dann noch nicht gecrawlt, also sind sie vielleicht schon Noindex oder ähnliches. Es ist also nur eine Warnung, die darauf hinweist, dass ihr vielleicht das Crawling optimieren könnt. Also schaut euch einfach mal an, was für URLs da genannt sind. Aber ansonsten könnt ihr diese Nachricht einfach ignorieren.


10.12.2015, 49:21

Frage: Setzt der Googlebot auch Cookies, sodass er nicht immer ein neuer, sondern manchmal auch ein wiederkehrender User ist? Und welche Auflösung nutzt er bei Ads above the Fold?

Antwort: In der Regel nicht. Die Ausnahme ist, das manche Seiten nur mit einem Cookie sichtbar sind – das lernt Googlebot dann unter Umständen. Das ist aber selten, wenn man die Inhalte sonst nicht sieht. Bei der Auflösung schaut man sich den Durchschnittsbenutzer an. Das wird immer wieder leicht angepasst und ich weiß nicht, wie es momentan genau aussieht. Das kann man, glaube ich, bei Analytics sehen.


10.12.2015, 29:23

Frage: Wie vermeidet man am besten, dass für den Crawler uninteressante Seiten gecrawlt werden? Beispiel: Login, Faceted Search, sortierte Listenseiten etc.

Antwort: Schwer, da gibt es nicht eine Lösung, die immer funktioniert. Wenn das Crawlen wirklich Probleme macht, dann blockiert es per robots.txt, bei den meisten Fällen würde ich aber einfach Noindex, Nofollow einstellen. So können wir einmal sehen, dass es da ist, müssen uns aber nicht weiter darum kümmern. Je nach Art der Website kann eine Loginseite auch eine interessante Seite sein und wird vielleicht speziell gesucht.


01.12.2015, 31:49

Frage: Würdest du sagen, dass in diesem Fall Links eine Rolle spielen?

Antwort: Ja, ich würde sagen, dass Links in Bezug auf das Crawling wichtig sind. Google muss diese Seiten erst finden, also spielen Links zumindest hier eine Rolle. Es geht dabei nicht so sehr um den Aufbau externer Links, sondern mehr um interne Links. Interne Links helfen Google dabei, eine Website zu verstehen und zu ermitteln, welche Seiten die wichtigsten Seiten einer Website sind. Beachtet aber bitte, dass, nur weil etwas häufiger gecrawlt wird, es nicht unbedingt wichtiger für die Suche. Google versucht das Crawlen vom Part der Indexierung und dem Ranking zu separieren. Google crawlt Seiten häufiger, die sich häufig verändern, aber das bedeutet nicht, dass diese Seiten höher ranken.


01.12.2015, 30:49

Frage: Haben Impressionen oder Traffic Einfluss auf die Crawlfrequenz? Werden Pages mit hohem Traffic häufiger gecrawlt als Seiten mit wenig Traffic?

Antwort: Das ist eher eine Korrelation/Ursachen Situation, wo wir gar nicht sehen, wie viele Besucher auf diese Pages gehen. Wenn wir aber das Gefühl haben, dass es sich um eine wichtige Seite der Website handelt, dann werden wir sie regelmäßiger crawlen. Das geschieht zum Beispiel, wenn Google feststellt, dass auf einer bestimmten Seite immer Newsartikel gepostet werden. In diesem Fall erkennt Google, dass auf dieser Seite regelmäßig Änderungen stattfinden und sie damit für Nutzer interessant ist – Google versucht diese Seite häufiger zu crawlen.


17.11.2015, 14:09

Frage: Welches ist die richtige Art, um Pagination auf einer Website einzubinden, die mehr als eine Million Produkte hat. Kann man eine “view all” Seite mit dem Canonical einrichten?

Antwort: In solch einem Fall würde ich mit Kategorien arbeiten. Auf diese Weise kann Google die Detailseiten (Produkte z. B.) erreichen. Wenn die Produkte voneinander unabhängig sind und nicht in Kategorien einsortiert werden können, dann kann es Sinn machen, einige dieser Seiten untereinander zu verlinken (wo es Sinn macht). Das hilft Google dann beim Crawling.


06.11.2015, 04:38

Frage: Wenn man beim Domainwechsel alles richtig macht – wie lange dauert es dann, bis die neue Seite die alte bei Google ablöst? Was passiert in diesem Vorgang noch, worauf wir achten sollten?

Antwort: Das ist schwer zu sagen, das kann Stunden oder Tage dauern. Für manche URLs eurer Seite wird es wegen des Crawlingprozesses schneller gehen als für andere. Für exakte Seitenabfragen kann es sogar Monate dauern.


06.11.2015, 01:33

Frage: Stimmt es, dass Seiten, die seit langem nicht mehr gecrawlt wurden, schlechter ranken oder weniger Autorität haben? Bringt es Vorteile, die Sitemap wöchentlich oder öfter einzureichen?

Antwort: Das stimmt nicht. Grundsätzlich crawlen wir so oft, wie wir denken, dass sich eine Seite ändern könnte. Aber die Anzahl der Crawlings lässt keine Rückschlüsse auf die Sichtbarkeit zu. Man muss also nichts regelmäßig manuell einreichen.


27.10.2015,  50:57

Frage: Wenn der Googlebot eine Seite crawlt – was passiert, wenn er auf eine HTML Fehler (invalides HTML) stößt? Kann dies zu einer Abwertung von Teilen der Seite führen? Kann dies indirekt die Rankings beeinflussen?

Antwort: Im Idealfall ist das HTML immer valide. Es hilft Google dabei, eine Seite richtig zu verstehen. In der echten Welt haben die meisten Seiten Fragmente mit invalidem HTML. Der Googlebot ignoriert diese Seiten nicht vollständig – er versucht trotzdem, die Seite zu verstehen und zu ranken. Manchmal ist das einfach, manchmal ist das schwierig. Solange die Seite im Browser geladen werden kann, kann der Googlebot normalerweise damit klarkommen.


16.10.2015, 56:06

Frage: Was ist der Unterschied zwischen dem Googleindex und dem Googlebot? Wie wirkt sich das auf die SERPs aus?

Antwort: Der Googlebot ist der Crawler, der losgeschickt wird, um die Seiten zu crawlen. Der Index ist der Platz, wo diese gespeichert werden.


16.10.2015, 54:38

Frage: Ist es möglich, die Wartezeit zwischen Änderungen und der Zeit, bis Google das crawlt, zu überlisten? Es macht Sinn, dass verstärkter Traffic dafür sorgt, dass früher gecrawlt wird. Liege ich da sehr falsch?

Antwort: Ich empfehle, die Sitemap zu nutzen und dort Änderungsdaten einzutragen, um diese Änderungen anzuzeigen. Alternativ kann auch das Submit to Google Tool verwendet werden. Wir nutzen die sozialen Netzwerke nicht, um das Crawling zu beschleunigen, da dort Nofollow-Links genutzt werden.


16.10.2015, 13:38

Frage: Übernimmt Google es sofort, wenn man die Struktur einer Seite ändert? Oder wartet Google etwas, um sicherzugehen, dass keine weiteren Änderungen folgen?

Antwort: Wenn ihr eure Seite ändert, dann übernehmen wir das direkt für jede URL, die wir crawlen – es passiert also mit der Zeit. Wir werden eure Seite nicht einfrieren oder aus dem Index nehmen. Das kann nur passieren, wenn ihr die Richtlinien nicht befolgt.


25.09.2015, 55:17

Frage: Wenn wir den Richtlinien von Google folgen und den Zugriff durch den Googlebot blockieren – wie wir es aktuell für US Nutzer für eine Glücksspiel Website tun – Gibt es eine Möglichkeit, Google Tools wie “Fetch as Google” zu nutzen und sicher zu sein, dass aus anderen Ländern gecrawlt wird?

Antwort: Wir crawlen manchmal aus anderen Ländern, aber das ist keine Sache, die wir häufig tun. Wenn ihr den kompletten Traffic aus den USA blockiert, ist die Chance ziemlich hoch, dass ihr den Googlebot ebenso blockiert und wir euren Content nicht indexieren. In solch einem Fall kann es Sinn machen, die betreffenden Seiten mit noindex zu versehen. Dann ist Google weiterhin in der Lage, die Seiten zu crawlen und ihr könnt die Tools in der Search Console verwenden. Unter Umständen ist dann einiger Content in den USA sichtbar. Aktuell kann nicht festgelegt werden, welcher Content in welchem Land in den Suchergebnissen angezeigt werden soll.


11.09.2015, 03:37

Frage: Wir überarbeiten die Dropdown Navigation unserer eCommerce Website. Kannst du uns Hinweise zum Best Practice geben? Müssen wir alle Kategorien berücksichtigen, um das Ranking Potenzial auszuschöpfen?

Antwort: Ich würde sicherstellen, dass der Googlebot die Website über die Navigation crawlen kann und die einzelnen Seiten finden kann. Das bedeutet nicht, dass alle Seiten untereinander verlinkt sein müssen, denn das macht in den meisten Fällen keinen Sinn. Ich würde den Fokus darauf legen, was für den Nutzer sinnvoll ist. Generell ist es so, dass, wenn der User sich durch die Seiten zu bestimmten Inhalten hinklicken kann, der Googlebot das auch kann.


28.08.2015, 42:13

Frage: Kann ich – für das schnellere Crawling – dem Googlebot eine Textversion einer Website anbieten und dem User die gleiche Website inklusive CSS und JavaScript anbieten? Ist das Cloaking?

Antwort: Ja, das ist Cloaking. Wenn für Google eine saubere Version bereitgestellt wird, ist das Cloaking. Davon raten wir ab. Es ist empfehlenswert, dem Googlebot die gleiche Websiteversion anzubieten wie den Nutzern.


13.08.2015, 32:39

Frage: Hallo John, welchen größten Fehler siehst du im Bereich SEO auf den meisten Webseiten?

Antwort: Schwer zu sagen. Wir sehen immer wieder große technische Probleme, sodass wir Inhalte nicht sauber crawlen können – beispielsweise weil der Server falsch eingestellt ist oder robots.txt zu viel blockiert. Auch bei Sitemigrations werden oft unsaubere Dinge gemacht, wodurch viele Signale verloren gehen. Vieles funktioniert aber immer besser, auch weil die großen CMS immer suchmaschinenfreundlicher werden.


31.07.2015, 37:43

Frage: Verbessern absolute URLs in der Navigation die Crawlrate, indem sie das Crawl Budget senken?

Antwort: Nein, absolute und relative URLs haben keinen Einfluss auf das Crawling.


31.07.2015, 23:33

Frage: Ich habe bemerkt, dass Google Seiten crawlt und indexiert, die eigentlich gar nicht existieren. Was sind deine Gedanken dazu?

Antwort: Es ist ein recht verbreitetes Phänomen, dass die Pagination für Seiten eingerichtet wird, die eigentlich gar nicht existieren. Google folgt den “next”-Links so lange, bis die Crawler irgendetwas Interessantes für die Indexierung finden. Webmaster sollten sicherstellen, dass es keinen Verweis via “next” auf Seiten gibt, die nicht existieren.


31.07.2015, 11:44

Frage: Können geschützte Seiten gecrawlt, gerendert und indexiert werden, sodass Nutzer bestimmte Informationen, wenn sie die Custom Search Engine nutzen, nur Ergebnisse unserer Website erhalten?

Antwort: Ich habe mir das angeschaut und die Custom Search Engine crawlt genauso wie die Crawler für Search crawlen. Wir müssen den Content öffentlich sehen, um ihn indexieren zu können. Du musst die Google Search Appliance nutzen, um die richtigen Resultate zu erhalten.


30.07.2015, 03:29

Frage: Müssen die Leute, die das in der robots.txt nicht für den Googlebot freigeben wollen, mit Rankingverlusten oder anderen Nachteilen rechnen?

Antwort: Ich würde das nicht als Penalty oder so sehen. Aber die Inhalte werden immer mehr gerendert. Wir versuchen also, zu sehen, wie die Seite im Browser aussieht. Wir wollen alles über die Seite wissen, um sie in der Suche möglichst sauber darstellen zu können. Wenn wir JavaScript nicht sehen können, dann entgehen uns möglicherweise viele Inhalte. Wenn es Inhalte sind, die die Seite nicht verändern (wie Analytics), dann ist es weniger problematisch. Das können wir aber nur bei manueller Ansicht sehen, die Suchmaschine merkt das nicht.


02.07.2015, 12:08

Frage: Wenn ich eine facet-search baue, entstehen da irgendwelche Probleme für Google beim Crawling und der Indexierung, wenn ich mehrere ausgewählte Facet-Optionen in der URL anzeige?

Antwort: Aus der Sicht von Google macht das keine Probleme, allerdings macht es es für den Webmaster schwieriger, das Crawling einzurichten. Ich würde so viele eindeutige Parameternamen wie möglich benutzen.


30.06.2015, 46:54

Frage: Wie können wir das Crawler-Budget für große Seiten (mit über 50.000 Seiten) erhöhen? Momentan sehe ich, dass viele der wichtigen Seiten nicht regelmäßig gecrawlt werden, obwohl wir sie in Sitemap zum täglichen crawlen priorisiert haben. Woran kann das liegen?

Antwort: Zuerst heißt crawlen nicht, dass wir die Seite auch für wichtig halten und in den Rankings zeigen. Wenn ihr Seiten habt, die sich nicht oft ändern, dann macht es keinen Sinn, sie täglich zu crawlen. Wenn wir also bei mehreren Crawls nichts neues entdecken, dann werden wir die Seiten danach seltener crawlen. Wenn ihr bestimmte Sachen geändert habt, auf die ihr uns hinweisen wollt, dann nutzt die Letzte Modifikationen Option in der Sitemap. Außerdem crawlen wir weniger, wenn wir während des Prozesses eine Verlangsamung des Servers feststellen.


30.06.2015, 53:03

Frage: Eine unserer wichtigsten Artikelseiten wird von Google täglich gecrawlt. Wir haben einen Link (Follow) in den Textkörper eingefügt, aber dieser wurde von Google noch nie gecrawlt. Selbst die Meta-Daten sind auf Index, Follow gesetzt – wie kann man das erklären?

Antwort: Es ist schwer, das aus der Ferne zu beurteilen. Bitte schicke mir einen Link, damit ich mir das genauer angucken kann.


19.06.2015, 47:57

Frage: Gibt es einen Unterschied zwischen dem Onpage Meta-Robots-Tag und dem X-Robots-Tag im http-Header? Welche Variante wird bevorzugt? Was passiert, wenn eine Page beides enthält und diese unterschiedliche Signale aussenden?

Antwort: Beides wird gleich behandelt. Der einzige Unterschied ist, dass der X-Robots-Tag auch für Elemente genutzt werden kann, die kein HTML sind (z. B. PDFs). Ansonsten gibt es keine Präferenzen oder Einschränkungen. Wenn unterschiedliche Signale ausgesendet werden, dann wird durch die Google Crawler das restriktivere Signal gewertet. Befindet sich z. B. in einem der Hinweis „index“ und im anderen „noindex“, dann wendet Google den „noindex“-Hinweis an.


17.06.2015, 42:13

Frage: Rendering und Crawling: Was sieht der Googlebot, wenn er die Website crawlt? Wie unterscheidet sich dieses Crawlen von cache: text version? Ist es nur sichtbarer Content, der in der Text Version (cache) sehen oder Source Code der Website (inklusive JS, CSS Content).

Antwort: Die Cache Version basiert auf der HTML Version, die wir erfassen. Wenn eine Website also z. B. auf Javascript basiert, dann sieht man oft, dass die Cache Version im Grunde einfach nur das JavaScript Framework (HTML) ist, die eigentlichen Inhalte werden nicht erfasst.


17.06.2015, 09:48

Frage: Werden die Algorithmen seitenweit eingesetzt oder ist es möglich, sie auch auf dem Page-Level zu nutzen?

Antwort: Wir versuchen, so genau wie möglich zu sein. Wenn es geht, dann auf dem Page-Level, aber viele der etwas weiterreichenden Qualitätsalgorithmen sind mehr auf dem Seiten- oder Subdomain Level. Es ist da schwer, sich auf individuelle Pages zu konzentrieren.


05.06.2015, 40:10

Frage: Wenn eine Seite für eingeloggte User gedacht ist und Google diese nicht Crawlen soll, soll ich dann auch Noindex nutzen?

Antwort: Das kommt darauf an, was du vorhast. Noindex oder Soft 404 funktioniert, wenn du die Seite gar nicht im Index haben willst. Aber wenn du beispielsweise ein Tool anbietest, das Leute finden sollen, dann kannst du das nicht nutzen. Dann solltest du ein Info-Snippet auf der Login-Seite nutzen und diese im Index lassen, damit Nutzer es finden.


05.06.2015, 24:50

Frage: Durchsucht ein Crawler alle Links auf einer Seite (vor allem, wenn es viele sind) oder beginnt er ab einem gewissen Punkt, sie zu ignorieren.

Antwort: Wir versuchen, so viel wie möglich zu durchsuchen –aber vielleicht nicht alles auf einmal, um deine Server nicht zu überlasten. Wir ignorieren aber keine Inhalte. Allgemein sollte man nicht zu viele Links haben, da dies die Nutzer realistischerweise überfordern wird.


04.06.2015

Frage: Irgendwann wurde mal gesagt, dass Inhalte, die gelöscht werden, weniger gecrawlt werden. Was bedeutet das?

Antwort: Seiten, die mit dem Noindex-Tag versehen wurden oder einen 404er bzw. 410er zurückgeben, werden von Google aus dem Index genommen. Die Priorität beim Crawlen wird für diese Seiten zurückgestuft. Stichprobenartig werden diese Seiten weiterhin ab und zu geprüft.

Werbung

TEILEN
Die Suchmaschinenoptimierung und das Online-Marketing sind meine Leidenschaft. Als akkreditierter Journalist und Chefredakteur des SEO Portal schreibe ich darüber und als Geschäftsführer der imwebsein GmbH (Online Marketing Agentur) kann ich diese Leidenschaft in der Praxis umsetzen.

HINTERLASSEN SIE EINE ANTWORT