roboty google słownik pojęć

Roboty Google

« Powrót do listy pojęć

Roboty Google, najczęściej nazywane Googlebotem, to zautomatyzowane programy (znane również jako web crawlerypająki lub boty), których głównym zadaniem jest nieustanne przemierzanie internetu w celu odkrywania nowych i aktualizowania istniejących stron internetowych.

Zebrane przez Googleboty informacje są następnie przekazywane do systemów Google, które analizują je i dodają do gigantycznej bazy danych zwanej indeksem. To właśnie z tego indeksu pobierane są strony wyświetlane później w wynikach wyszukiwania.

Jak działają roboty Google? Proces skanowania (crawlingu)

Działanie Googlebota można porównać do czytania nieskończonej książki, w której każda strona ma odnośniki do kolejnych. Proces ten przebiega w cyklu:

  1. Odkrycie (Discovery) – googlebot zaczyna od znanych mu już stron oraz map witryn (sitemap.xml).
  2. Podążanie za linkami na każdej odwiedzanej stronie. Wtedy robot analizuje jej treść i znajduje wszystkie linki (zarówno wewnętrzne, do innych podstron w tej samej witrynie, jak i zewnętrzne, do innych domen).
  3. Nowo odkryte linki dodawane są do gigantycznej “kolejki” adresów URL, które Googlebot ma odwiedzić w przyszłości.
  4. Skanowanie (Crawling), gdy przychodzi kolej na dany adres URL, Googlebot odwiedza go, pobiera jego zawartość (kod HTML, pliki CSS, JavaScript, obrazy) i analizuje ją, aby zrozumieć, o czym jest strona.
  5. Przekazanie do indeksacji, aby pobrane dane przekazać do systemów indeksujących Google, które decydują, czy i w jaki sposób zapisać stronę w indeksie.

Ten proces powtarza się bez końca, 24 godziny na dobę, 7 dni w tygodniu, co pozwala Google utrzymywać swój indeks w miarę aktualnym.

Różne typy robotów Google

W rzeczywistości “Googlebot” to nie jeden, a cała rodzina wyspecjalizowanych robotów. Najważniejsze z nich to:

  • Googlebot Desktop – skanuje strony, symulując użytkownika na komputerze stacjonarnym.
  • Googlebot Smartphone – najważniejszy obecnie robot, który skanuje strony, symulując użytkownika na smartfonie. To jego “wersja” strony jest podstawą do oceny w ramach Mobile-First Indexing.
  • Googlebot Images – specjalizuje się w skanowaniu i indeksowaniu plików graficznych.
  • Googlebot Video – skanuje i analizuje treści wideo.

Jak kontrolować roboty Google?

Chociaż chcemy, aby Googlebot odwiedzał naszą stronę, nie zawsze chcemy, aby miał dostęp do wszystkich jej zakamarków (np. panelu logowania, koszyka zakupowego, stron z wynikami wyszukiwania wewnętrznego).

Plik robots.txt

Do kontrolowania dostępu robotów służy plik tekstowy o nazwie robots.txt, umieszczany w głównym katalogu serwera. Za pomocą prostych dyrektyw (Allow i Disallow) możemy wskazać Googlebotowi, których części serwisu nie powinien skanować. Jest to kluczowe dla optymalizacji budżetu na indeksowanie (crawl budget).

Ocena

Średnia ocena: 0 / 5. Liczba ocen: 0

Darmowa wycena

Scroll to Top