Robots Meta Tag to znacznik HTML umieszczany w sekcji <head> strony, który przekazuje robotom wyszukiwarek instrukcje dotyczące tego, jak mają traktować daną podstronę – czy mogą ją zaindeksować, czy mogą podążać za linkami, które się na niej znajdują, i jak długo mogą przechowywać jej kopię w pamięci podręcznej.
W odróżnieniu od pliku robots.txt, który działa na poziomie całego serwisu i kontroluje dostęp do URL-i, Robots Meta Tag działa na poziomie pojedynczej podstrony i daje znacznie większą precyzję w zarządzaniu indeksowaniem.
Jak wygląda Robots Meta Tag?
Podstawowa składnia jest prosta:
<meta name="robots" content="index, follow">Zamiast robots można też wskazać konkretnego robota – na przykład wyłącznie Googlebot:
<meta name="googlebot" content="noindex, nofollow">Jeśli tag nie jest obecny na stronie, Google domyślnie zakłada index, follow – czyli indeksuje stronę i podąża za linkami.
Dostępne dyrektywy
Robots Meta Tag obsługuje kilka dyrektyw, które można łączyć w dowolnych kombinacjach.
index / noindex – podstawowa para. index mówi Google, że strona może trafić do indeksu. noindex wyklucza stronę z indeksu – nie pojawi się w wynikach wyszukiwania, nawet jeśli inne strony do niej linkują.
follow / nofollow – follow pozwala robotowi podążać za linkami na stronie i przekazywać przez nie autorytet. nofollow blokuje to zachowanie – robot nie będzie śledzić linków, a linki nie będą przekazywać PageRank.
noarchive – blokuje przechowywanie kopii strony w Google Cache. Przydatne przy stronach z często aktualizowaną treścią, gdzie stara wersja cache mogłaby wprowadzać użytkowników w błąd.
nosnippet – zabrania Google wyświetlania snippetu tekstowego i miniaturki wideo w wynikach wyszukiwania. Strona może się pojawić w SERP-ach, ale bez opisu.
max-snippet:[n] – ogranicza długość snippetu do określonej liczby znaków. Przydatne dla wydawców, którzy chcą kontrolować, ile treści Google może pokazywać w wynikach bez konieczności całkowitego blokowania snippetu.
max-image-preview:[setting] – kontroluje maksymalny rozmiar miniatury obrazu w wynikach. Wartości to none (brak miniatury), standard (standardowa miniatura) i large (duża miniatura, wymagana np. dla AMP i wyróżnionych fragmentów z obrazem).
max-video-preview:[n] – ogranicza długość podglądu wideo w wynikach do określonej liczby sekund.
notranslate – blokuje wyświetlanie przez Google propozycji tłumaczenia strony w wynikach wyszukiwania.
noimageindex – blokuje indeksowanie obrazów znajdujących się na danej stronie.
unavailable_after:[date] – informuje Google, żeby przestało indeksować stronę po określonej dacie. Przydatne przy treściach z ograniczonym czasem ważności, jak oferty promocyjne czy ogłoszenia o wydarzeniach.
Robots Meta Tag a plik robots.txt – różnice
To dwa różne narzędzia służące do różnych celów i bardzo ważne, żeby ich nie mylić.
Plik robots.txt blokuje dostęp robota do URL-a – robot nie może go odwiedzić i crawlować. Ale uwaga: jeśli do zablokowanej strony prowadzą linki zewnętrzne, Google może nadal zaindeksować ją jako URL (bez treści), bo wie o jej istnieniu z linków.
Robots Meta Tag z dyrektywą noindex pozwala robotowi odwiedzić stronę i przeczytać tag – a następnie wykluczyć ją z indeksu. To ważna różnica: żeby noindex zadziałał, robot musi móc stronę odwiedzić.
Stąd częsty błąd: blokowanie strony w robots.txt i jednoczesne stosowanie noindex na tej samej stronie. Jeśli robots.txt blokuje dostęp, robot nigdy nie przeczyta tagu noindex, więc dyrektywa nie zadziała zgodnie z oczekiwaniami.
Kiedy stosować Robots Meta Tag?
Robots Meta Tag to przydatne narzędzie w wielu typowych sytuacjach.
Strony z wynikami wyszukiwania wewnętrznego – strony generowane dynamicznie przez wyszukiwarkę w serwisie rzadko wnoszą wartość do indeksu Google i lepiej je wykluczyć przez noindex.
Strony z filtrami i parametrami – w e-commerce strony kategorii z zastosowanymi filtrami (kolor, rozmiar, cena) często generują setki podobnych URL-i. noindex pomaga ograniczyć duplikaty w indeksie bez konieczności blokowania crawlowania.
Strony paginacji – podstrony drugiej, trzeciej i kolejnych stron kategorii lub bloga bywają indeksowane selektywnie. Niektórzy decydują się na noindex dla głębszych stron paginacji, żeby skupić autorytet na głównej stronie kategorii.
Strony z cienką treścią (thin content) – podstrony, które zawierają mało unikalnej treści i nie wnoszą wartości dla użytkownika, lepiej wykluczyć z indeksu, zamiast pozwalać im rozmywać jakość całego serwisu.
Strony techniczne i administracyjne – strony logowania, koszyk, panel użytkownika, strony z regulaminami generowanymi automatycznie – typowe kandydatury do noindex.
Strony z treścią tymczasową – promocje, eventy, oferty sezonowe, które po zakończeniu nie mają wartości w indeksie.
Robots Meta Tag a X-Robots-Tag
Dla stron generowanych dynamicznie lub plików innych niż HTML (np. PDF, grafiki) istnieje odpowiednik Robots Meta Tag działający na poziomie nagłówków HTTP – X-Robots-Tag. Działa identycznie, ale jest przekazywany w nagłówku odpowiedzi serwera zamiast w kodzie HTML. To jedyna możliwość przekazania takich instrukcji dla plików, które nie mają sekcji <head>.
Jak sprawdzić, czy Robots Meta Tag działa?
Google Search Console – narzędzie inspekcji URL pokazuje, czy dana strona jest zaindeksowana, jakie dyrektywy meta robots zostały wykryte i czy Googlebot mógł stronę odwiedzić.
Inspekcja kodu źródłowego – najprostszy sposób: widok kodu źródłowego strony (Ctrl+U w przeglądarce) i wyszukanie meta name="robots".
Screaming Frog – podczas crawlu serwisu wykrywa i raportuje tagi meta robots na wszystkich podstronach, co pozwala szybko zidentyfikować podstrony z noindex lub innymi dyrektywami.

