Bei den internationalen Ausgaben der Search Marketing Expo gibt es immer wieder absolute Highlight-Sessions. Wir haben ja erst vor Kurzem einige der spannendsten Talks der SMX München für euch mitgeschrieben. Doch auch auf der SMX West in San Jose gab es eine Session, die international als absolutes Highlight angesehen wurde.
Hierbei handelt es sich um den Vortrag von Paul Haahr, Principal Software Engineer bei Google. Durch seine mehr als 15 Jahre Erfahrung bringt Paul unglaubliches Wissen über die Wirkmechanismen der Google-Suche mit. Da sein Vortrag nun als Video bei YouTube und Slideshare zu finden ist, haben wir hier seine besten Aussagen für euch zusammengetragen und übersetzt.
Inhaltsverzeichnis
Google-Suche heute
Google sieht das heutige Internet als eine Mobile-First-Welt. Und dies beeinflusst natürlich, wie Google über die SERPs und die ausgespielten Ergebnisse denkt. Denn nun muss alles direkt konsumierbar sein – auch wenn die Bandbreite nur sehr gering ist. Auch der Ort des Suchenden sowie seine Suchweise (Sprachsuche, Tab) spielen eine wichtige Rolle.
Zudem hat Google in der letzten Zeit viele neue Features eingeführt. Neben althergebrachten Dingen wie der Auto-Complete nehmen Knowledge Graphs, Maps und Bilder einen immer größeren Raum ein. Mit solchen Features soll die Suche als Assistent für alle Bereiche des täglichen Lebens etabliert werden.
Ranking
Paul beschreibt als Grundlage des Rankings das 10-blaue-Links-Problem: Welche Dokumente zeigen wir? In welcher Reihenfolge zeigen wir sie? Diese beiden Fragen sind die zentralen Punkte, an denen die Google-Verantwortlichen im Hinblick auf die organischen Suchergebnisse arbeiten.
Hier geht es nur um die SERPs, nicht um die bezahlten Anzeigen. Denn in Paul’s Jobbeschreibung steht deutlich, dass er sich nicht um die Anzeigen, sondern nur um die Nutzer kümmern soll. Der Einfluss seiner Arbeit auf Google’s Werbeeinnahmen soll ihm also explizit egal sein.
Das Leben einer Suchanfrage
Jeder neue Google-Engineer wird einen halben Tag lang in die Fragen der Suche eingearbeitet. Für die SMX hat Paul das Ganze auf fünf Minuten heruntergebrochen. Die Grundlage dessen ist, dass es zwei Teile einer Suchmaschine gibt: Bevor eine Suchanfrage hereinkommt, und nachdem die Anfrage gestellt wurde.
Vor der Suchanfrage
Der Googlebot crawlt das Web und schaut sich die Milliarden an crawlbaren Seiten an. Die dabei gesammelten Daten werden dann durch Google analysiert – diese Analyse geht heute weit über das Sammeln der Links hinaus und besteht aus semantischen Fragen und inhaltlichem Rendering.
Für Google ist es dabei ein großer Schritt, dass JavaScript und CSS mittlerweile wirklich gut erkannt und gerendered werden können. So kommt die Suchmaschine der Erfahrung des Nutzers unglaublich Nahe und kann das sehen, was auch der Nutzer erblicken würde, wenn er die entsprechende Seite öffnet.
Auf dieser Grundlage wird dann der Index erstellt. Hier gibt es für jedes Wort eine Liste an Seiten, auf denen dieses Wort erscheint. Die Seiten werden dabei in tausende Gruppen, sogenannte “Shards” aufgeteilt, die jeweils mehrere Millionen an Seiten beinhalten. Auch Meta-Daten spielen eine Rolle.
Bearbeiten der Suchanfrage
Hierbei geht es zunächst darum, die Suchanfrage zu verstehen. Google fragt sich, ob einige der Namensobjekte bereits bekannt sind und ob es sinnvolle Synonyme gibt, die ebenfalls beachtet werden müssen. Hierbei spielt der Kontext der Suchanfrage eine ganz entscheidende Rolle.
Die Anfrage wird an alle Shards geschickt. Jeder Shard findet passende Seiten, bewertet diese im Hinblick auf die Anfrage (dieser Wert ist der zentrale Teil des Rankings und zeigt, wie gut die Seite für die Anfrage passt) und schickt die passendsten Seiten wieder zurück. Die Seiten aus allen Shards werden dann kombiniert und nach der Bewertung sortiert. Die besten Seiten aus allen Shards sind dann das, was der Nutzer auf der ersten Seite der SERPs angezeigt bekommt.
Zum Abschluss werden dann noch Feinjustierungen vorgenommen. Hierbei werden unter anderem die Hosts ebenso betrachtet wie die Frage, ob es eventuell Doppelungen gibt. Zudem werden spammige Seiten heruntergestuft, zum Beispiel durch manuelle Abstrafungen.
Daraufhin werden Snippets erstellt, die Top 10 wird finalisiert und dann in Form des bekannten Google-Indexes gezeigt. Hierbei kommen dann auch andere Features, wie Direct Answers und Knowledge Graph, ins Spiel. Das fertige Ergebnis wird dann dem Nutzer als Antwort auf seine Suchanfrage ausgespielt.
Bewertungssignale
Wie gesagt handelt es sich bei den Bewertungen um das Element, das Seiten im Endeffekt gut (oder auch schlecht) ranken lässt. Bei diesem Signal gibt es zwei wichtige Kategorien, aus denen sich am Ende das Gesamtergebnis ergibt. Diese werden entsprechend unabhängig voneinander berechnet.
Zum einen handelt es sich um Signale, die von der Suchanfrage unabhängig sind und sich nur auf die vorhandene Website beziehen. Es geht hierbei also um Dinge, die als Bestandteil der Website selbst zählen. Beispiele für diese Kategorie sind der RageRank und die Mobilfreundlichkeit. Aber auch die Sprache der Website ist von Bedeutung, um sie vollumfänglich verstehen zu können.
Bei der zweiten Kategorie geht es um die Deckungsgleichheit zwischen einer Suchanfrage und einer Website, diese Signale sind also Abhängig von der Suchanfrage. Denn was für eine Anfrage relevant sein kann, ist bei der nächsten vielleicht egal. Hierbei spielen unter anderem Keywords und Synonyme eine Rolle.
Metriken
Dieser Abriss über die Bewertungssignale beschreibt sehr gut, was passiert. Doch wie geht Google dabei genau vor? Welche Metriken sind relevant, um im Index die Spreu vom Weizen zu trennen. Alle Metriken verrät Paul natürlich nicht, aber ein paar zentrale Vergleichszahlen nennt er trotzdem.
Ganz vorne steht hierbei die Relevanz. Ist die Website nützlich und beantwortet die Frage des Nutzers auf zufriedenstellende Weise? Wird diese Frage mit nein beantwortet, hat die Website keine Chance, für die Suchanfrage prominent angezeigt zu werden. Anhand dieser Metrik vergleicht sich Google auch mit seinen Konkurrenten. Denn es ist Google’s Bestreben, die für den Nutzer relevantesten Suchergebnisse zu bieten.
Wichtig ist auch die Qualität. Google sagt bekanntlich immer wieder, dass nur qualitativ hochwertige Seiten weit vorne gezeigt werden sollen. Im Hinblick auf den Faktor Zeit gilt zudem: Je schneller der Nutzer an die Informationen kommt – je schneller also die Website ist – desto besser.
Diese Metriken werden immer auf die Gesamtheit der Suchergebnisse angewendet. Wenn Google die Nützlichkeit seiner Ergebnisse hinterfragt, steht also nicht nur die erste Seite oder gar die Top 3 der SERPs im Fokus – auch die hinteren Ergebnisseiten werden einem Tests unterzogen.
Dabei werden die Ergebnisse jedoch nach ihrer Position gewichtet. So ist Position eins den Faktor 1 wert. Position 2 zählt noch die Hälfte, Position 3 zählt ein Drittel und Position 4 zählt ein Viertel. Dieses Vorgehen ist im Allgemeinen unter dem Namen “reziprok gerankte Metriken” bekannt.
Live-Experimente
Hier hat Google einen vielschichtigen Evaluationsprozess implementiert. Zum einen gibt es Live-Experimente. Diese beinhalten A/B Tests mit echtem Traffic und die Suche nach Änderungen im Klickverhalten. Wer bei Google etwas sucht, der wird aller Wahrscheinlichkeit nach Teil von einem oder mehreren Experimenten sein – und das bei jeder Suche.
Diese Experimente müssen dann natürlich noch interpretiert werden. Als Beispiel nennt Paul Folgendes: Zwei Seiten (P1 und P2) beantworten eine Nutzerfrage. P1 hat die Antwort auf der Seite, P2 auf der Seite und im Snippet. Algorithmus A packt P1 vor P2, der Nutzer klickt und das ist “gut”. Algorithmus B packt P2 vor P1, der Nutzer klickt nicht und das ist “schlecht”.
Denkt Google dann, dass A besser ist als B? Denn die Antwort stand ja im Snippet und ein Klick war vielleicht gar nicht nötig? Hier ist es für Google dann oft schwer, diesen Fall vom Gegenteil (der Nutzer hat keine Antwort gefunden) zu unterscheiden. Live-Experimente sind also schwer, aber aussagekräftig – wenn man sie richtig interpretiert.
Menschliche Bewertungs-Experimente
Der andere Weg, um die gewünschten Metriken zu erhalten, sind menschliche Experimente. Her zeigt Google echten Menschen experimentelle Suchergebnisse und fragt, wie gut die Menschen diese finden. Diese werden auf der Grundlage der Quality Rater Guidelines bewertet und durch Tools unterstützt.
Die menschliche Komponente ist Google wichtig, da Individuen über Wissen und Intuition verfügen, die Maschinen nicht lernen können. Wenn Google also etwas ändert, geschieht das oft, um den Quality Rater Guideslines näher zu kommen. Denn diese sind eines der zentralen Dokumente.
Ein Beispiel für diese Bewertung ist auf dem nebenstehenden Bild zu sehen. Hier können die Bewerter zwei Pfeile verschieben: Eine Bewertung dahingehend, ob die Nutzerwünsche erfüllt werden und eine zweite dahingehend, wie hoch die Qualität der Seite ist. Nimmt man diese zusammen, erhält man eine Bewertung des Inhalts und des Aufbaus der Seite – und das von echten Menschen.
Alle Tester sollen dabei beachten, wie hilfreich die Seite für einen mobilen Nutzer ist. Zudem beachtet Google den Aufenthaltsort des Nutzers, verwendet Tools zur Prüfung der mobilen Nutzererfahrung, und lässt seine Bewerter die Seiten auf mobilen Endgeräten ansehen. Mobile Anfragen werden dabei überproportional genutzt und das mobile Zeitalter abzubilden.
Das Bewertungsschema
Im oben gezeigten Beispiel der manuellen Seitenbewertung gibt es verschiedene Abstufungen. Die Frage ist dabei nicht, ob eine Seite die Nutzeransprüche erfüllt, sondern zu welchem Grad. Abstufungen sind: Komplett, sehr, moderat, etwas, und gar nicht. Hierzu gibt es folgende Beispiele:
Sucht man nach einem Brand und erhält die Website oder App des Brands, ist das Ergebnis “komplett”. “Sehr” ist zum Beispiel eine informative Anfrage, die eine gute und informative Antwort hervorbringt. Es gibt als Zwischenform zusätzlich “wirklich sehr”, was als “komplett” gelten würde, wenn es für die Suchanfrage nicht noch weitere Interpretationen gäbe (Local-Pack oder Website des Unternehmens).
“Moderat” bedeutet, dass eine Seite gute Informationen beinhaltet, aber nicht gut genug ist, um ganz vorne zu ranken. Diese Seiten beschäftigen sich zum Beispiel auch mit anderen Themen oder haben keine wirklich starke Autorität. Ihre passenden Inhalte werden so nichtsdestotrotz anerkannt.
“Etwas” weist darauf hin, dass eine Seite zwar Informationen aus dem gesuchten Spektrum hat, aber nicht wirklich spezifisch ist – oder gar veraltete Beiträge enthält. Es sollte also im Bestfall stärkere oder aktuellere Informationen geben, die dann entsprechend besser gerankt werden.
“Gar nicht” bezeichnet eine Seite, die für die Suchanfrage keine sinnvollen Informationen bietet. Hier kann es sowohl inhaltliche als auch ortsbasierte Probleme geben, die dazu führen, dass der Nutzer mit dem angezeigten Ergebnis nichts anfangen kann. Diese Seiten sollten dann für den Suchbegriff nicht ausgespielt werden.
Seitenqualität
Neben diesen inhaltlichen Faktoren legt Google auch großen Wert auf die Qualität der Seite. Und hierbei haben sich mit der Zeit drei zentrale Konzepte herausgebildet, die darüber entscheiden, ob eine Seite als qualitativ hochwertig gilt. Diese sind die Expertise (gibt es viele gute Beiträge zu dem Thema und von dem Autor?), die Autorität (hat die Website Autorität zum Thema?) und die Vertrauenswürdigkeit (kann man der Seite vertrauen?).
Die Metriken optimieren
Der Entwcklungsprozess bei Google durchläuft immer mehrere Stufen. Dabei arbeiten hunderte von Entwicklern an verschiedenen Problemen und Lösungsansätzen. Alles beginnt dabei mit einer Idee. Wird diese als sinnvoll angesehen, so folgt ein Kreislauf, der immer gleich aussieht.
Zuerst wird der entsprechende Code geschrieben. Danach werden Daten gesammelt, Experimente durchgeführt und deren Ergebnisse analysiert. Dies wird so oft durchgeführt, bis die Anwendung gut funktioniert und damit bereit für die Öffentlichkeit ist. Ob dies Wochen oder Monate dauert, hängt vom jeweiligen Fall ab.
Und viele Dinge funktionieren auch einfach nie. Wenn es aber funktioniert, dann wird sich ein Statistiker das ganze anschauen und einen Launch-Report schreiben. Diese sollen einen Blick “von außen” auf den Prozess bieten und objektiv geschrieben sein. Ist dies auch erfolgreich, wird es im Launch Review Meeting besprochen und dann gibt es das “Go” – oder eben nicht.
Natürlich gibt es dabei auch Probleme für die Googler. Zum einen kann es passieren, dass man schlechte Ratings von den Bewertern erhält. Hierbei kann es auch der Fall sein, dass diese etwas als gut bewerten, auch wenn es schlecht ist. Hier muss dann in den Guidelines nachgebessert werden.
Zum anderen gibt es schlechte Inhalte, die aus den SERPs verbannt werden müssen. Hierfür wurde eine eigene Qualitätsmetrik erstellt, die sich nur mit der Qualität einer Seite beschäftigt. Diese ist nicht gleich der Relevanz, sondern eine eigene Kennzahl. Diese führte dann dazu, dass Signale zur Qualitätsmessung erstellt werden konnten.
Mit diesem Überblick von Paul Haahr wissen wir nun also, wir die Ranking-Ingenieure bei Google arbeiten und wie das Ranking im Endeffekt zu Stande kommt. Natürlich verrät er keine geheimen Ranking-Faktoren, bietet aber einen spannenden Einblick in die Google-Ranking-Welt.
Gibts doch schon als Slideshare:
http://de.slideshare.net/SearchMarketingExpo/how-google-works-a-ranking-engineers-perspective-by-paul-haahr
Hey, danke für den Hinweis, den Link habe ich noch ergänzt. Hier ging es aber vor allem darum, das Ganze zu übersetzen (wie wir es mit den Hangouts ja auch machen).