Robots Meta Tag

« Powrót do listy pojęć

Robots Meta Tag to znacznik HTML umieszczany w sekcji <head> strony, który przekazuje robotom wyszukiwarek instrukcje dotyczące tego, jak mają traktować daną podstronę – czy mogą ją zaindeksować, czy mogą podążać za linkami, które się na niej znajdują, i jak długo mogą przechowywać jej kopię w pamięci podręcznej.

W odróżnieniu od pliku robots.txt, który działa na poziomie całego serwisu i kontroluje dostęp do URL-i, Robots Meta Tag działa na poziomie pojedynczej podstrony i daje znacznie większą precyzję w zarządzaniu indeksowaniem.

Jak wygląda Robots Meta Tag?

Podstawowa składnia jest prosta:

<meta name="robots" content="index, follow">

Zamiast robots można też wskazać konkretnego robota – na przykład wyłącznie Googlebot:

<meta name="googlebot" content="noindex, nofollow">

Jeśli tag nie jest obecny na stronie, Google domyślnie zakłada index, follow – czyli indeksuje stronę i podąża za linkami.

Dostępne dyrektywy

Robots Meta Tag obsługuje kilka dyrektyw, które można łączyć w dowolnych kombinacjach.

index / noindex – podstawowa para. index mówi Google, że strona może trafić do indeksu. noindex wyklucza stronę z indeksu – nie pojawi się w wynikach wyszukiwania, nawet jeśli inne strony do niej linkują.

follow / nofollow – follow pozwala robotowi podążać za linkami na stronie i przekazywać przez nie autorytet. nofollow blokuje to zachowanie – robot nie będzie śledzić linków, a linki nie będą przekazywać PageRank.

noarchive – blokuje przechowywanie kopii strony w Google Cache. Przydatne przy stronach z często aktualizowaną treścią, gdzie stara wersja cache mogłaby wprowadzać użytkowników w błąd.

nosnippet – zabrania Google wyświetlania snippetu tekstowego i miniaturki wideo w wynikach wyszukiwania. Strona może się pojawić w SERP-ach, ale bez opisu.

max-snippet:[n] – ogranicza długość snippetu do określonej liczby znaków. Przydatne dla wydawców, którzy chcą kontrolować, ile treści Google może pokazywać w wynikach bez konieczności całkowitego blokowania snippetu.

max-image-preview:[setting] – kontroluje maksymalny rozmiar miniatury obrazu w wynikach. Wartości to none (brak miniatury), standard (standardowa miniatura) i large (duża miniatura, wymagana np. dla AMP i wyróżnionych fragmentów z obrazem).

max-video-preview:[n] – ogranicza długość podglądu wideo w wynikach do określonej liczby sekund.

notranslate – blokuje wyświetlanie przez Google propozycji tłumaczenia strony w wynikach wyszukiwania.

noimageindex – blokuje indeksowanie obrazów znajdujących się na danej stronie.

unavailable_after:[date] – informuje Google, żeby przestało indeksować stronę po określonej dacie. Przydatne przy treściach z ograniczonym czasem ważności, jak oferty promocyjne czy ogłoszenia o wydarzeniach.

Robots Meta Tag a plik robots.txt – różnice

To dwa różne narzędzia służące do różnych celów i bardzo ważne, żeby ich nie mylić.

Plik robots.txt blokuje dostęp robota do URL-a – robot nie może go odwiedzić i crawlować. Ale uwaga: jeśli do zablokowanej strony prowadzą linki zewnętrzne, Google może nadal zaindeksować ją jako URL (bez treści), bo wie o jej istnieniu z linków.

Robots Meta Tag z dyrektywą noindex pozwala robotowi odwiedzić stronę i przeczytać tag – a następnie wykluczyć ją z indeksu. To ważna różnica: żeby noindex zadziałał, robot musi móc stronę odwiedzić.

Stąd częsty błąd: blokowanie strony w robots.txt i jednoczesne stosowanie noindex na tej samej stronie. Jeśli robots.txt blokuje dostęp, robot nigdy nie przeczyta tagu noindex, więc dyrektywa nie zadziała zgodnie z oczekiwaniami.

Kiedy stosować Robots Meta Tag?

Robots Meta Tag to przydatne narzędzie w wielu typowych sytuacjach.

Strony z wynikami wyszukiwania wewnętrznego – strony generowane dynamicznie przez wyszukiwarkę w serwisie rzadko wnoszą wartość do indeksu Google i lepiej je wykluczyć przez noindex.

Strony z filtrami i parametrami – w e-commerce strony kategorii z zastosowanymi filtrami (kolor, rozmiar, cena) często generują setki podobnych URL-i. noindex pomaga ograniczyć duplikaty w indeksie bez konieczności blokowania crawlowania.

Strony paginacji – podstrony drugiej, trzeciej i kolejnych stron kategorii lub bloga bywają indeksowane selektywnie. Niektórzy decydują się na noindex dla głębszych stron paginacji, żeby skupić autorytet na głównej stronie kategorii.

Strony z cienką treścią (thin content) – podstrony, które zawierają mało unikalnej treści i nie wnoszą wartości dla użytkownika, lepiej wykluczyć z indeksu, zamiast pozwalać im rozmywać jakość całego serwisu.

Strony techniczne i administracyjne – strony logowania, koszyk, panel użytkownika, strony z regulaminami generowanymi automatycznie – typowe kandydatury do noindex.

Strony z treścią tymczasową – promocje, eventy, oferty sezonowe, które po zakończeniu nie mają wartości w indeksie.

Robots Meta Tag a X-Robots-Tag

Dla stron generowanych dynamicznie lub plików innych niż HTML (np. PDF, grafiki) istnieje odpowiednik Robots Meta Tag działający na poziomie nagłówków HTTP – X-Robots-Tag. Działa identycznie, ale jest przekazywany w nagłówku odpowiedzi serwera zamiast w kodzie HTML. To jedyna możliwość przekazania takich instrukcji dla plików, które nie mają sekcji <head>.

Jak sprawdzić, czy Robots Meta Tag działa?

Google Search Console – narzędzie inspekcji URL pokazuje, czy dana strona jest zaindeksowana, jakie dyrektywy meta robots zostały wykryte i czy Googlebot mógł stronę odwiedzić.

Inspekcja kodu źródłowego – najprostszy sposób: widok kodu źródłowego strony (Ctrl+U w przeglądarce) i wyszukanie meta name="robots".

Screaming Frog – podczas crawlu serwisu wykrywa i raportuje tagi meta robots na wszystkich podstronach, co pozwala szybko zidentyfikować podstrony z noindex lub innymi dyrektywami.