Google Caffeine
Das revolutionäre Update von Googles Infrastruktur
Spätestens nach den Terroranschlägen des 11. Septembers 2001 hat Google das Problem erkannt: Es waren nur „veraltete“ Inhalte in deren Index vorhanden und kaum möglich, Webseiten mit aktuellen Inhalten – am besten in Echtzeit – in den Index zu bekommen. Es musste ein Update der gesamten Infrastruktur her.
Am 8. Juni 2010 wurde das neue Indexsystem Google Caffeine veröffentlicht.
Die häufig gewählte Bezeichnung Google Caffeine Update ist hier jedoch irreführend, da Caffeine kein herkömmliches Update wie Panda oder Penguin ist. Somit handelt es sich hier um keine Algorithmus-Änderung, die das Ranking in den Suchmaschinenergebnisseiten (SERPs) direkt beeinflusst. Vielmehr beinhaltet das Upgrade eine mehr oder weniger komplett neue Infrastruktur, die die Art und Weise wie der Indexierungsprozess von Google abläuft, grundlegend verändert hat.
Es war der erste Schritt in einem Prozess, der es ermöglicht, Größe, Genauigkeit und die Vollständigkeit des Google-eigenen Indexes sowie dessen Indexierungsgeschwindigkeit zu erhöhen.
Interview mit Matt Cutts, dem Chef des Web Spam Team von Google:
„The Caffeine update isn’t about making some UI changes here or there. Currently, even power users won’t notice much of a difference at all. This update is primarily under the hood: we’re rewriting the foundation of some of our infrastructure. But some of the search results do change, so we wanted to open up a preview so that power searchers and web developers could give us feedback.“ (Cutts, 2009)
Sinngemäß heißt das, die neue Infrastruktur beinhaltet nur Änderungen „under the hood“ also unter der Haube der Google Suchmaschine, sodass die meisten User keinen Unterschied bei der Benutzung der Suchmaschine oder bei den Suchergebnissen bemerken.
Webentwickler, Website-Betreiber und Power Searcher sollten jedoch sehr wohl einige Unterschiede bemerken. Aus diesem Grund wurde bereits Anfang August 2009 eine Vorschau für Webmaster und Power-Searchers bereitgestellt, um die Änderungen bereits vorab anschauen und testen zu können. Und auch entsprechendes Feedback für weitere Anpassungen an Google zu senden.
Die Entwicklung des Google Indexes und dessen Infrastruktur
Im Jahr 2000 wurde der Index von Google alle 4 Monate erneuert. Dies hatte zur Folge, dass ein Websitebetreiber im schlimmsten Fall ganze 4 Monate warten musste, bis seine geänderten Inhalte oder neue Webseiten in den Index aufgenommen wurden. Spätestens nach den Terroranschlägen des 11. Septembers 2001 hat Google das Problem erkannt: Es waren nur „veraltete“ Inhalte in deren Index vorhanden und es war kaum möglich, Webseiten mit aktuellen Inhalten – am besten in Echtzeit – in den Index zu bekommen. Als Reaktion auf diese Erkenntnis versuchte Google seitdem seinen Index immer schneller zu aktualisieren. Ende 2001 wurde die Frequenz der Indexaktualisierungen auf einen Monat reduziert.
Weitere Gründe für das Handeln von Google waren neben der fehlenden Reaktionsgeschwindigkeit auf aktuelle Ereignisse, die ständig wachsende Anzahl an Websites, und die zunehmende Vielfalt der Webseiteninhalte.
Waren es 2009 noch rund 200 Millionen gab es bereits 2014 knapp 1 Mrd. registrierte Websites. (Quelle: Statista, 2015)
Um den steigenden Erwartungshaltungen der Suchmaschinennutzer und der Websitebetreiber gerecht zu werden, musste Google schließlich handeln und eine Möglichkeit schaffen, die neuen Inhalte möglichst schnell in den Index zu bekommen und sie somit auch den Nutzern zur Verfügung zu stellen.
Unmittelbar vor der Einführung des umfassenden Infrastruktur-Updates bestand der Suchindex von Google aus mehreren Schichten. Die verschiedenen Schichten wurden dabei unterschiedlich schnell aktualisiert. Die Hauptschicht wurde beispielsweise alle paar Wochen erneuert. Um eine Schicht des alten Index zu aktualisieren, musste das ganze Web analysiert und mit dem bestehenden Index abgeglichen werden. Somit trat eine deutliche Verzögerung zwischen dem Zeitpunkt, zu dem die Seite entdeckt wurde und ihrer Sichtbarkeit im Index auf. Die bereits gefundene Seite wurde also solange bis das gesamte Web durchsucht wurde in einer Wartschlange geparkt. (Carrie Grimes, Google Software Engineer, 2010)
Google Caffeine war somit ein „Update“ mit Blick auf die Zukunft und sollte als ein robustes Fundament für alle zukünftigen Updates der Websuche dienen und es ermöglichen, eine noch schnellere und umfassendere Suchmaschine aus Google zu kreieren. Dem neuen Suchindex wurde nun ein inkrementeller, also schrittweiser und kontinuierlicher Crawling- und Indexierungsprozess zugrunde gelegt. Es wurden nun jede Sekunde parallel hunderttausende Seiten verarbeitet. Der Index konnte seither mit dem Anstieg an Informationen im Netz mitwachsen und noch relevantere Suchergebnisse liefern.
Ein Blick auf die Hardware-Anforderungen: Der Index von Google beansprucht mehr als 100 Millionen Gigabyte an Speicher und wächst durch die ständige Aktualisierung täglich um mehrere hunderttausend GB. Als logische Folge hat auch die Speicherkapazität und die Flexibilität der Speicherung von Google stark zugenommen.
Mit Google Caffeine wurde die Suchmaschine von Grund auf erneuert. Die Art und Weise wie Google Websites findet und sie in den Index implementiert, wurde komplett umstrukturiert.
Das Web wird nun in kleinen Dosen analysiert und nicht mehr das gesamte Netz auf einmal. Somit besteht die Möglichkeit, jede Website separat zu crawlen und die neuen Inhalte und Webseiten schon kurze Zeit nach der Veröffentlichung zu indexieren. Außerdem können seither neue Seiten und Inhalte unmittelbar nach der Entdeckung direkt dem Index hinzugefügt werden und verschwinden nicht für die nächste Zeit in einer Warteschlange.
Google Caffeine bietet Vorteile für alle Beteiligte
Von der neuen Infrastruktur und der Möglichkeit die aktuellen Informationen nun innerhalb von Sekunden zu crawlen und zu indexieren profitiert nicht nur Google, sondern auch die Suchmaschinen-Nutzer und die Websitebetreiber:
„Caffeine benefits both searchers and content owners because it means that all content (and not just content deemed “real time”) can be searchable within seconds after its crawled“ (Matt Cutts, 2010)
Die Vorteile für die Suchmaschinen-Nutzer reichen bis in die Gegenwart
Google Caffeine ermöglicht eine schnellere Suche und bietet rund 50 % aktuellere Suchergebnisse als der vorherige Index. Durch die Erweiterung des Indexes können bis zu doppelt so umfangreiche Ergebnisse erreicht werden. Denn mit Einführung der Infrastrukturänderungen werden nicht nur die traditionellen Webseiteninhalte indexiert, sondern auch diverse Multimedia Inhalte wie Nachrichten, Newsfeeds, Blogbeiträge und Postings aus Foren. Daraus resultiert die größte Sammlung von Webinhalten, die Google jemals anbieten konnte. Durch die ständige Aktualisierung sind relevante und vor allem aktuelle Inhalte für Suchenden nun viel schneller nach deren Veröffentlichung auffindbar. Außerdem können dem Suchenden allgemein bessere Suchergebnisse präsentiert werden, da insgesamt mehr Resultate im Index sind. (Carrie Grimes, Google Software Engineer, 2010)
Vorteile für die Websitebetreiber
Neben der Indexierungsgeschwindigkeit erhalten die Websitebetreiber einen erhöhten Spielraum zur Erstellung von hochwertigen Inhalten für Webseiten, neue Möglichkeiten auf sich aufmerksam zu machen und werden sogar dafür belohnt, auch andere Multimedia-Elemente auf der Website zu verwenden.
Durch Google Caffeine werden die Websitebetreiber aber auch dazu angespornt ihre Webseiten immer aktuell zu halten, da sie sonst mit Rankingverlusten rechnen müssen. Denn in den Suchergebnislisten werden die Webseiten bevorzugt behandelt, die aktuellere Inhalte bieten als andere. Davon sind jedoch keine Seiten betroffen, bei denen es keine Neuigkeiten gibt.
Quellen
More info on the Caffeine Update
https://de.statista.com/statistik/daten/studie/290274/umfrage/anzahl-der-webseiten-weltweit/
https://webmasters.googleblog.com/2009/08/help-test-some-next-generation.html
https://webmaster-de.googleblog.com/2010/06/unser-neuer-suchindex-caffeine.html
Schreibe einen Kommentar