robots.txt

« Powrót do listy pojęć

Plik robots.txt to standardowy plik tekstowy używany przez właścicieli stron internetowych do zarządzania dostępem robotów wyszukiwarek (takich jak Googlebot czy Bingbot) do sekcji ich witryn internetowych. Plik ten jest częścią Protokołu Wykluczenia Robotów (Robots Exclusion Protocol, REP), który umożliwia administratorom i właścicielom witryn instruowanie robotów, które części strony mogą być przeszukiwane, a które powinny być pomijane. Innymi słowy, plik robots.txt “mówi” robotom skanującym strony, jak mają się zachować na danej stronie, co mogą przeglądać, a czego nie. Plik robots.txt posiada większość stron internetowych. Znajdziesz go pod adresem domena.pl/robots.txt.

Główne funkcje pliku robots.txt

Dyrektywy Allow i Disallow:
- Disallow: Służy do wskazania robotom, które części witryny nie powinny być przeszukiwane. Na przykład Disallow: /private/ zakazuje dostępu do katalogu /private/.
- Allow: Może być użyte do wyraźnego zezwolenia na indeksowanie określonych części witryny, które inne reguły mogłyby zablokować. Na przykład Allow: /private/images/ pozwoli na indeksowanie obrazów, nawet jeśli cały katalog /private/ jest zablokowany.
Wskazanie mapy witryny:
- Plik robots.txt może zawierać dyrektywę Sitemap, która wskazuje lokalizację pliku XML mapy witryny. Jest to przydatne dla robotów wyszukiwarek, aby lepiej zrozumieć strukturę witryny i skuteczniej ją indeksować.

Przykładowy plik robots.txt

Pliki robots.txt mogą być różne, w zależności od serwisu, którego dotyczą. Czasem są mniej, a czasem bardziej skomplikowane. Poniżej znajduje się przykład prostego pliku robots.txt dla serwisu opartego o CMS WordPress.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-content/uploads/wpforms/
Sitemap: https://webiti.pl/mapa.xml

W tym przykładzie:

User-agent: * oznacza, że dyrektywy mają zastosowanie do wszystkich robotów.
Disallow: /wp-admin/ instruuje roboty, aby nie przeszukiwały katalogu /wp-admin/.
Allow: /wp-admin/admin-ajax.php zezwala robotom na dostęp do pliku admin.ajax.php w katalogu wp-admin (zauważ, że wyżej zabroniliśmy robotom dostępu do katalogu wp-admin, jednak dodanie dyrektywy z tego punktu pozwala na wyjątek i dostęp do tego konkretnego pliku (admin-ajax.php).
Sitemap: https://webiti.pl/mapa.xml podaje lokalizację mapy XML witryny.

Znaczenie robots.txt dla SEO

Plik robots.txt to kolejne narzędzie, które pełni ważną rolę w SEO. Umożliwia nam ono pełną kontrolę nad tym, które części witryny są dostępne dla robotów skanujących nasz serwis. Odpowiednie zarządzanie tym plikiem pomaga unikać crawlowania i indeksowania duplikatów treści, strony w trakcie budowy lub innych sekcji, które nie powinny być publicznie dostępne. Dzięki temu można skupić roboty na najważniejszych częściach witryny, co potencjalnie poprawia ogólną widoczność w wyszukiwarkach.

Prawidłowe użycie i w ogóle korzystanie z pliku robots.txt będzie szczególnie istotne w przypadku dużych serwisów, które mają dziesiątki czy setki tysięcy podstron.

Pliku robots.txt należy używać z ostrożnością, ponieważ błędne dyrektywy mogą zablokować crawlowanie ważnych stron, co negatywnie wpłynie na SEO. Zawsze warto przed wdrożeniem sprawdzić skonfigurowany plik za pomocą narzędzi dla webmasterów, takich jak Google Search Console, aby upewnić się, że dyrektywy są poprawnie zinterpretowane przez roboty wyszukiwarek.