Crawling (crawlowanie)

« Powrót do listy pojęć

Crawling to proces polegający na skanowaniu przez roboty wyszukiwarek (na przykład Google Bot‘a) stron www. Boty wyszukiwarek przeglądają serwisy internetowe, pobierając ich treść i dane, aby zrozumieć, o czym są poszczególne podstrony, oraz aby znaleźć nowe lub zaktualizowane podstrony w danym serwisie. Upraszczając, można powiedzieć, że crawlowanie polega na “chodzeniu po stronie” przez roboty wyszukiwarek w celu poznawania zawartości witryny.

Crawlowanie jest jednym z podstawowych procesów związanych z indeksowaniem stron (pojawianiem się stron w wynikach wyszukiwania). Dzięki informacją zebranym przez boty, które skanują (crawlują) strony, algorytmy wyszukiwarek mogą tworzyć swój indeks i wyświetlać go użytkownikom szukającym odpowiedzi na swoje zapytania.

Crawling – jak wygląda krok po kroku

Inicjacja crawlowania – w pierwszym etapie Google Bot (lub robot innej wyszukiwarki) rozpoczyna proces crawlowania od przygotowania listy startowych adresów URL (seed URLs). Są to zazwyczaj strony o dużym znaczeniu lub te, które Google już zna z poprzednich przeszukiwań.
Skanowanie – na tym etapie Google Bot odwiedza każdą stronę z listy seed URLs. Pobiera jej zawartość, analizując kod HTML i zasoby takie jak obrazy, CSS i JavaScript. Boty mogą również przeglądać i analizować dane strukturalne na stronie. Google Bot analizuje zawartość każdej strony, aby zrozumieć jej tematykę i znaczenie.
Śledzenie linków – podczas skanowania strony Google Bot rozpoznaje i śledzi linki znajdujące się na przeszukiwanych stronach. Są to zarówno linki wewnętrzne, jak i zewnętrzne, czyli te które prowadzą do innych stron. Znalezione linki bot dodaje do swojej listy adresów URL do przeszukania. Dzięki temu boty są w stanie cały czas odkrywać nowe podstrony.
Sprawdzenie pliku robots.txt – istotne jest też to, że podczas procesu crawlowania Google Bot sprawdza plik robots.txt na każdej domenie, aby zrozumieć, które strony mają być wykluczone z procesu skanowania. Plik robots.txt instruuje bowiem boty, które części witryny mogą, a które nie mogą być przeszukiwane.
Częstotliwość skanowania (crawlowania) – Google Bot decyduje, jak często przeszukiwać każdą stronę na podstawie jej popularności i częstotliwości aktualizacji. Strony często aktualizowane będą przeszukiwane częściej, aby zapewnić, że indeks wyszukiwarki jest aktualny. Jeśli na Twojej stronie “wiele się dzieje” Google Bot będzie rzadziej odwiedzał Twój serwis (dlatego warto zadbać o stałą aktualizację serwisu).
Zbieranie i przetwarzanie danych – ważnym krokiem procesu crawlowania jest wysłanie zebranych danych do serwerów Google, gdzie dane te są analizowane i przechowywane. Dane zebrane przez roboty przetwarzane są przez algorytmy Google, które następnie oceniają jakość i znaczenie każdej strony.
Indeksowanie – to bardzo ważny krok, na podstawie zebranych danych, Google decyduje, które strony mają być dodane do indeksu wyszukiwarki. Indeksowanie oznacza, że strona jest uwzględniona w bazie danych Google i może być wyświetlana w wynikach wyszukiwania.
Aktualizacja indeksu – Google regularnie aktualizuje swój indeks (swoją bazę danych), dodając nowe strony, usuwając te, które zniknęły, i aktualizując zawartość tych, które się zmieniły. Dzięki temu wyniki wyszukiwania są zawsze aktualne i odzwierciedlają najnowszą zawartość dostępną w internecie.

Znaczenie crawlingu

Jeżeli prześledziłeś dokładnie wyżej opisany przebieg procesu crawlowania serwisu, wiesz już na pewno, że crawling jest ważny w procesie pozycjonowania strony. Bez efektywnego crawlowania, wyszukiwarki nie byłyby w stanie zidentyfikować i zrozumieć treści dostępnych w internecie. Dlatego ważne jest, aby strony internetowe były zoptymalizowane pod kątem łatwego crawlowania – innymi słowy, ważne jest to, żeby Twoja strona była dostępna dla Google Bota i dała się łatwo znaleźć robotom.