Podstawowy plik robots.txt
Podstawowy plik robots.txt jest odpowiedni dla małych witryn, które nie wymagają skomplikowanych reguł. Pozwala na indeksowanie wszystkich zasobów przez wszystkie roboty.
User-agent: * Disallow: Sitemap: https://www.example.com/sitemap.xml
Ten przykład oznacza, że roboty mogą indeksować wszystkie zasoby witryny, a lokalizacja mapy witryny jest jasno określona.
Robots.txt dla witryny z sekcjami prywatnymi
W przypadku witryn, które zawierają sekcje dostępne tylko dla administratorów, plik robots.txt może blokować dostęp do tych obszarów.
User-agent: * Disallow: /admin/ Disallow: /private/ Allow: /admin/public-info.html Sitemap: https://www.example.com/sitemap.xml
W tym przykładzie katalogi /admin/ i /private/ są zablokowane dla robotów, ale dostęp do pliku public-info.html w katalogu /admin/ jest dozwolony.
Robots.txt dla sklepu internetowego
Sklepy internetowe często generują dynamiczne treści, takie jak wyniki wyszukiwania czy filtry, które nie powinny być indeksowane.
User-agent: * Disallow: /search/ Disallow: /filter/ Disallow: /*?sessionid= Allow: /products/ Sitemap: https://www.example.com/sitemap.xml
W tym przypadku blokowane są wyniki wyszukiwania i filtry, co zapobiega indeksowaniu duplikatów treści. Katalog /products/ pozostaje dostępny dla robotów.
Robots.txt dla dużej witryny z podziałem na sekcje
Duże witryny z wieloma sekcjami mogą wymagać bardziej szczegółowej konfiguracji, aby zarządzać dostępem robotów.
User-agent: Googlebot Disallow: /test/ Allow: /public/ User-agent: Bingbot Disallow: /old-content/ User-agent: * Disallow: /temp/ Sitemap: https://www.example.com/sitemap.xml
W tym przykładzie Googlebot ma specyficzne reguły, które różnią się od tych dla Bingbota, a pozostałe roboty stosują reguły ogólne.
Robots.txt dla witryny z międzynarodowym SEO
Witryny wielojęzyczne lub skierowane do różnych krajów mogą używać wielu map witryny w pliku robots.txt.
User-agent: * Disallow: Sitemap: https://www.example.com/sitemap-en.xml Sitemap: https://www.example.com/sitemap-fr.xml Sitemap: https://www.example.com/sitemap-de.xml
W tym przypadku różne mapy witryny są określone dla każdego języka, co ułatwia robotom indeksowanie treści zgodnie z lokalizacją.
Robots.txt dla bloga
Blogi mogą używać pliku robots.txt do blokowania indeksowania nieistotnych treści, takich jak archiwa, strony z tagami lub wyniki wyszukiwania.
User-agent: * Disallow: /search/ Disallow: /tag/ Allow: /blog/ Sitemap: https://www.example.com/sitemap.xml
Ten plik robots.txt blokuje dostęp do stron z tagami i wynikami wyszukiwania, ale pozwala na indeksowanie treści bloga.
Robots.txt z opóźnieniem crawlowania
Witryny o dużym ruchu mogą wymagać ograniczenia szybkości crawlowania przez roboty, aby zmniejszyć obciążenie serwera.
User-agent: * Crawl-delay: 10 Disallow: /temp/ Sitemap: https://www.example.com/sitemap.xml
Opcja Crawl-delay nakazuje robotom wyszukiwarek, aby wykonywały żądania z opóźnieniem wynoszącym 10 sekund.
Najlepsze praktyki przy konfiguracji pliku robots.txt
Aby zapewnić skuteczność pliku robots.txt, warto stosować się do poniższych zasad:
- Regularnie testuj plik robots.txt za pomocą narzędzi, takich jak Google Search Console.
- Unikaj blokowania zasobów, które są niezbędne do renderowania strony, takich jak pliki CSS i JavaScript.
- Upewnij się, że wpis Sitemap wskazuje na aktualną mapę witryny.
- Przetestuj plik robots.txt dla różnych User-agentów.