Roboty Google

« Powrót do listy pojęć

Roboty Google, najczęściej nazywane Googlebotem, to zautomatyzowane programy (znane również jako web crawlery, pająki lub boty), których głównym zadaniem jest nieustanne przemierzanie internetu w celu odkrywania nowych i aktualizowania istniejących stron internetowych.

Zebrane przez Googleboty informacje są następnie przekazywane do systemów Google, które analizują je i dodają do gigantycznej bazy danych zwanej indeksem. To właśnie z tego indeksu pobierane są strony wyświetlane później w wynikach wyszukiwania.

Jak działają roboty Google? Proces skanowania (crawlingu)

Działanie Googlebota można porównać do czytania nieskończonej książki, w której każda strona ma odnośniki do kolejnych. Proces ten przebiega w cyklu:

Odkrycie (Discovery) – googlebot zaczyna od znanych mu już stron oraz map witryn (sitemap.xml).
Podążanie za linkami na każdej odwiedzanej stronie. Wtedy robot analizuje jej treść i znajduje wszystkie linki (zarówno wewnętrzne, do innych podstron w tej samej witrynie, jak i zewnętrzne, do innych domen).
Nowo odkryte linki dodawane są do gigantycznej “kolejki” adresów URL, które Googlebot ma odwiedzić w przyszłości.
Skanowanie (Crawling), gdy przychodzi kolej na dany adres URL, Googlebot odwiedza go, pobiera jego zawartość (kod HTML, pliki CSS, JavaScript, obrazy) i analizuje ją, aby zrozumieć, o czym jest strona.
Przekazanie do indeksacji, aby pobrane dane przekazać do systemów indeksujących Google, które decydują, czy i w jaki sposób zapisać stronę w indeksie.

Ten proces powtarza się bez końca, 24 godziny na dobę, 7 dni w tygodniu, co pozwala Google utrzymywać swój indeks w miarę aktualnym.

Różne typy robotów Google

W rzeczywistości “Googlebot” to nie jeden, a cała rodzina wyspecjalizowanych robotów. Najważniejsze z nich to:

Googlebot Desktop – skanuje strony, symulując użytkownika na komputerze stacjonarnym.
Googlebot Smartphone – najważniejszy obecnie robot, który skanuje strony, symulując użytkownika na smartfonie. To jego “wersja” strony jest podstawą do oceny w ramach Mobile-First Indexing.
Googlebot Images – specjalizuje się w skanowaniu i indeksowaniu plików graficznych.
Googlebot Video – skanuje i analizuje treści wideo.

Jak kontrolować roboty Google?

Chociaż chcemy, aby Googlebot odwiedzał naszą stronę, nie zawsze chcemy, aby miał dostęp do wszystkich jej zakamarków (np. panelu logowania, koszyka zakupowego, stron z wynikami wyszukiwania wewnętrznego).

Plik robots.txt

Do kontrolowania dostępu robotów służy plik tekstowy o nazwie robots.txt, umieszczany w głównym katalogu serwera. Za pomocą prostych dyrektyw (Allow i Disallow) możemy wskazać Googlebotowi, których części serwisu nie powinien skanować. Jest to kluczowe dla optymalizacji budżetu na indeksowanie (crawl budget).

Michał Józefowicz

Doświadczony ekspert SEO specjalizujący się w prowadzeniu skutecznych kampanii pozycjonowania i technicznych optymalizacji SEO na stronach internetowych! Zajrzyj na mój LinkedIn

Roboty Google

Jak działają roboty Google? Proces skanowania (crawlingu)

Różne typy robotów Google

Jak kontrolować roboty Google?

Plik robots.txt

Michał Józefowicz

Darmowa wycena

Porozmawiajmy

Konsultacja z Ekspertem SEO