Definition

Googlebot

Googlebot ist ein Webcrawling-Suchroboter (auch bekannt als Spider oder Webcrawler), der die Webseiteninformationen sammelt, die zur Erstellung der Google-Suchmaschinenergebnisseiten verwendet werden.

Googlebot sammelt Dokumente aus dem Internet, um den Suchindex von Google aufzubauen. Durch das ständige Sammeln von Dokumenten entdeckt die Software neue Seiten und Aktualisierungen von bestehenden Seiten. Googlebot verwendet ein verteiltes Design, das sich über viele Computer erstreckt, damit es mit dem Web wachsen kann.

Der Webcrawler verwendet spezielle Algorithmen, die bestimmen, welche Websites er durchsuchen soll, mit welcher Geschwindigkeit er sie durchsucht und wie viele Seiten er abrufen soll. Der Googlebot beginnt mit einer Liste, die aus früheren Sitzungen erstellt wurde. Diese Liste wird dann um die von den Webmastern bereitgestellten Sitemaps ergänzt. Die Software durchsucht alle verlinkten Elemente auf den von ihr durchsuchten Webseiten und notiert neue Websites, Aktualisierungen von Websites und tote Links. Die gesammelten Informationen werden verwendet, um den Google-Index des Internets zu aktualisieren.

Googlebot erstellt einen Index innerhalb der von den Webmastern in ihren robots.txt-Dateien festgelegten Grenzen. Möchte ein Webmaster beispielsweise Seiten vor der Google-Suche verbergen, kann er den Googlebot in einer robots.txt-Datei im obersten Ordner der Website blockieren. Um den Googlebot daran zu hindern, allen Links auf einer bestimmten Seite einer Website zu folgen, kann er das nofollow-Meta-Tag einfügen; um den Googlebot daran zu hindern, einzelnen Links zu folgen, kann der Webmaster rel="nofollow" zu den Links selbst hinzufügen.

Der Webmaster einer Website kann alle paar Sekunden Besuche von Computern auf google.com feststellen, die den User-Agent Googlebot anzeigen. Im Allgemeinen versucht Google, so viel wie möglich von einer Website zu indizieren, ohne die Bandbreite der Website zu überlasten. Wenn ein Webmaster feststellt, dass Googlebot zu viel Bandbreite verbraucht, kann er auf der Startseite der Google-Suchkonsole eine Rate festlegen, die 90 Tage lang gültig ist.

Diese Definition wurde zuletzt im April 2022 aktualisiert

Erfahren Sie mehr über Softwareentwicklung

ComputerWeekly.de
Close