Podstawy pliku robots.txt
Plik robots.txt znajduje się w katalogu głównym witryny i zawiera reguły określające, które zasoby mogą być indeksowane przez roboty wyszukiwarek. Plik ten wykorzystuje instrukcje, takie jak:
- User-agent: Określa, do którego robota stosuje się dana reguła (np. Googlebot, Bingbot).
- Disallow: Blokuje dostęp do określonych zasobów.
- Allow: Zezwala na dostęp do określonych zasobów (głównie w Google).
- Sitemap: Wskazuje lokalizację mapy witryny.
Oto przykład uniwersalnego pliku robots.txt:
User-agent: * Disallow: /private/ Allow: /public/ Sitemap: https://www.twojastrona.pl/sitemap.xml
Robots.txt dla Google
Googlebot jest robotem wyszukiwarki Google i jednym z najczęściej używanych robotów. Google obsługuje zaawansowane instrukcje w pliku robots.txt, takie jak:
Specyficzne reguły dla Googlebot
- Allow: Google obsługuje regułę
Allow
, która pozwala na dostęp do określonych zasobów w zablokowanym katalogu. - Noindex: Googlebot ignoruje regułę
Noindex
w pliku robots.txt. Zaleca się użycie meta tagów robots dla takich celów.
Przykład robots.txt dla Google
User-agent: Googlebot Disallow: /private/ Allow: /private/public/ Sitemap: https://www.twojastrona.pl/sitemap.xml
W tym przykładzie katalog /private/
jest zablokowany dla Googlebota, ale dostęp do /private/public/
jest dozwolony.
Robots.txt dla Bing
Bingbot to robot wyszukiwarki Bing. Bing obsługuje podstawowe reguły, takie jak Disallow
i Sitemap
. Podobnie jak w przypadku Google, zaleca się testowanie pliku robots.txt w Bing Webmaster Tools.
Specyficzne reguły dla Bing
- Bing respektuje
Disallow
, aby blokować zasoby. - Obsługuje reguły dla różnych User-agentów, takich jak Bingbot lub BingPreview.
Przykład robots.txt dla Bing
User-agent: Bingbot Disallow: /admin/ Sitemap: https://www.twojastrona.pl/sitemap.xml
W tym przykładzie katalog /admin/
jest zablokowany dla Bingbota, a lokalizacja mapy witryny została określona.
Robots.txt dla Yahoo
Yahoo używa robota o nazwie Yahoo Slurp. Jest on zgodny z podstawowymi regułami robots.txt, ale ponieważ Yahoo korzysta z wyników Bing, reguły dla Bingbota zazwyczaj mają zastosowanie również do Yahoo.
Specyficzne reguły dla Yahoo
Disallow
iSitemap
są obsługiwane zgodnie z podstawowymi zasadami.- Reguły dla Yahoo Slurp można określić, używając
User-agent: Slurp
.
Przykład robots.txt dla Yahoo
User-agent: Slurp Disallow: /test/
W tym przykładzie katalog /test/
jest zablokowany dla robota Yahoo Slurp.
Robots.txt dla Yandex
Yandex, popularna wyszukiwarka w Rosji, używa robota o nazwie YandexBot. Obsługuje on standardowe reguły, ale wprowadza także dodatkowe, takie jak:
Specyficzne reguły dla Yandex
- Crawl-delay: Pozwala ustawić opóźnienie między żądaniami robota.
- Respektuje reguły
Disallow
,Allow
iSitemap
.
Przykład robots.txt dla Yandex
User-agent: Yandex Disallow: /cgi-bin/ Crawl-delay: 10 Sitemap: https://www.twojastrona.pl/sitemap.xml
W tym przykładzie katalog /cgi-bin/
jest zablokowany dla YandexBota, a opóźnienie między żądaniami wynosi 10 sekund.
Podsumowanie
Plik robots.txt to potężne narzędzie do zarządzania indeksowaniem witryny przez różne wyszukiwarki. Chociaż większość robotów obsługuje te same podstawowe reguły, warto dostosować plik do specyficznych wymagań poszczególnych wyszukiwarek, takich jak Google, Bing, Yahoo i Yandex. Regularne testowanie pliku oraz uwzględnianie różnic między wyszukiwarkami pozwala na skuteczne zarządzanie ruchem robotów na stronie.