Jak zbudować plik robots.txt pod roboty indeksujące AI

Plik robots.txt to mały plik tekstowy, ale o ogromnym znaczeniu dla każdej witryny internetowej. Instrukcje w nim zawarte informują roboty sieciowe, które części strony mogą indeksować, a które powinny pominąć. W dobie sztucznej inteligencji i nowych, coraz bardziej zaawansowanych robotów indeksujących, robots.txt zyskuje na wadze – pozwala kontrolować dostęp zarówno tradycyjnych wyszukiwarek, jak i inteligentnych asystentów AI.

Czym jest plik robots.txt?

Plik robots.txt to specjalny plik znajdujący się w głównym katalogu witryny internetowej. Zawiera on listę reguł (dyrektyw), które nakazują robotom indeksującym (botom sieciowym) co robić na stronie. Przykładowo, można zakazać przeszukiwania pewnych folderów lub zezwolić na indeksowanie tylko określonych sekcji serwisu. Plik ten ma zwykle prostą strukturę: składa się z linii zaczynających się od słów kluczowych User-agent, Disallow, Allow itp. Choć jego treść jest prosta, prawidłowa konfiguracja może znacząco wpłynąć na widoczność strony w wynikach wyszukiwania i zachowanie robotów AI.

Podstawowe informacje o pliku robots.txt

  • Lokalizacja: plik robots.txt musi być umieszczony w głównym katalogu witryny (np. twojastrona.pl/robots.txt). Tylko tam roboty będą go automatycznie szukać.
  • Format: to zwykły plik tekstowy (UTF-8), bez żadnych dodatkowych rozszerzeń. Jego nazwa musi być dokładnie robots.txt.
  • Zawartość: plik zawiera dyrektywy typu User-agent, Disallow, Allow, Sitemap (opcjonalnie). Każda instrukcja rozpoczyna się od nazwy dyrektywy, a po dwukropku – konkretnym parametrem (np. ścieżką lub nazwą bota).
  • Cel: głównym zadaniem pliku jest zarządzanie ruchem robotów sieciowych, zarówno tych klasycznych (jak Googlebot, Bingbot), jak i nowych botów AI. Pozwala on zapalonym webmasterom na otwarcie drzwi do niektórych części strony lub wręcz ich zamknięcie.

Dla osób stawiających pierwsze kroki w SEO warto zaznaczyć, że plik robots.txt nie służy do zabraniania indeksowania treści w wyszukiwarce — to zadanie dla meta tagu noindex. Robots.txt blokuje jedynie pobieranie stron przez boty. Jednak jeśli robot nie pobierze strony, nie będzie mógł jej zaindeksować – dlatego należy ostrożnie decydować, co blokujemy.

Roboty indeksujące a sztuczna inteligencja

Współczesny Internet obserwuje gwałtowny wzrost aktywności robotów indeksujących AI. Są to programy-crawlery używane przez duże modele językowe (LLM) i wyszukiwarki AI, takie jak ChatGPT, Google Gemini, Bing Chat, Perplexity.ai, Claude itp. Ich zadaniem jest pozyskiwanie treści z sieci w celu uczenia się na nich lub dostarczania użytkownikom odpowiedzi. Choć działają podobnie jak tradycyjne roboty (np. Googlebot), często mają inne cele i nazwy użytkowników (User-agent).

Nowe generacje botów AI mogą pobierać pełne treści stron do tworzenia dużych zbiorów danych szkoleniowych albo docierać do konkretnych informacji na żądanie użytkownika. Dla właściciela strony oznacza to, że ruch z tych robotów może znacząco wpłynąć na zużycie pasma i sposób prezentacji treści. Jeśli zależy nam na widoczności w odpowiedziach generowanych przez sztuczną inteligencję, warto pozwolić na indeksowanie najważniejszych zasobów. Jeśli natomiast chcemy chronić swoją treść przed nieautoryzowanym kopiowaniem, możemy zablokować wybrane boty.

Tradycyjne roboty vs. roboty AI

  • Googlebot, Bingbot, YandexBot itp. to klasyczne roboty wyszukiwarek. Indeksują one strony pod kątem wyświetlania w wyszukiwarce. Roboty te są generalnie przyjazne, a Google na przykład zwykle przestrzega reguł z robots.txt.
  • Boty AI (ChatGPT, Claude, Perplexity, GPTBot, ClaudeBot, YouBot) są specyficzne dla modeli sztucznej inteligencji. Mają unikalne nagłówki użytkownika, np. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, ChatGPT-User, YouBot (You.com) czy FacebookBot (dla AI Meta).
  • Różnica w zachowaniu: Tradycyjne wyszukiwarki indeksują i rankują strony według algorytmów SEO. Roboty AI natomiast zbierają treść w całości lub częściowo do generowania odpowiedzi. Warto o tym pamiętać przy planowaniu zawartości i zabezpieczeń strony.

Dla początkujących ważna uwaga: dopóki nie wpiszemy w robots.txt konkretnych reguł dla nowych botów AI, zazwyczaj będą działać z ustawieniami domyślnymi – co często oznacza pełny dostęp. Dlatego przygotowując plik robots.txt, warto rozważyć, które roboty AI chcemy obsłużyć (pozwolić im na crawlowanie) i z których chcemy zrezygnować (disallow).

Podstawowe dyrektywy w pliku robots.txt

Każdy plik robots.txt składa się z zestawu reguł (dyrektyw). Podstawowymi słowami kluczowymi są: User-agent, Disallow, Allow i ewentualnie Sitemap. Oto krótki przegląd:

  • User-agent: określa nazwę robota, do którego odnoszą się poniższe dyrektywy. Może to być konkretna nazwa bota (np. Googlebot, Bingbot, GPTBot) lub gwiazdka * (oznaczająca wszystkie roboty). Dzięki tej dyrektywie rozróżniamy roboty i przypisujemy im indywidualne zasady.
  • Disallow: ustala, które części witryny dany robot nie może przeszukiwać. Na przykład Disallow: /admin/ oznacza, że robot nie wejdzie do folderu admin. Jeśli chcemy całkowicie zablokować danego bota, wpisujemy Disallow: / – co odcina dostęp do całego serwisu.
  • Allow: (nie wszystkie roboty to rozumieją, ale Google i niektóre inne tak) precyzuje, do jakich ścieżek bot ma dostęp nawet, jeśli szersza reguła Disallow mogłaby tego zabraniać. Przykładowo, można najpierw zablokować cały folder, a następnie ponownie pozwolić na konkretny plik wewnątrz niego.
  • Sitemap: choć nie jest konieczna, ta dyrektywa informuje roboty o lokalizacji mapy strony (sitemap), co może ułatwić znalezienie najważniejszych podstron. Dla robotów AI główną rolę odgrywają jednak User-agent i Disallow/Allow.

User-agent – jak identyfikować boty

W pliku robots.txt User-agent to kluczowe hasło. Wpisując User-agent: XXX, wskazujemy, że dalsze reguły będą dotyczyły bota o nazwie XXX. Na przykład:

  • User-agent: Googlebot – oznacza robota Google; kolejne dyrektywy odnoszą się tylko do Googlebotów.
  • User-agent: Bingbot – zasady dla robota Bing.
  • User-agent: GPTBot – reguły dla GPTBota (crawlera OpenAI).
  • User-agent: ChatGPT-User – reguły dla bota OpenAI odpowiedzialnego za pobieranie stron na żądanie użytkowników ChatGPT.
  • User-agent: ClaudeBot – zasady dla Anthropic Cloude’a.
  • User-agent: PerplexityBot – reguły dla bota wyszukiwarki Perplexity.ai.
  • User-agent: * – dotyczy wszystkich robotów, gdy nie potrzebujemy rozdzielać reguł dla poszczególnych.

Warto zapamiętać, że nazwy botów mogą się zmieniać lub pojawiać nowe. Dobrą praktyką jest okresowe sprawdzanie logów serwera pod kątem nieznanych agentów i aktualizowanie pliku robots.txt.

Pozwalać czy blokować: dyrektywy Allow i Disallow

Po zdefiniowaniu User-agent trzeba ustalić, co dany bot może, a czego nie może indeksować.

  • Jeśli chcemy całkowicie zablokować bota, wpisujemy: User-agent: [nazwa bota] Disallow: / Oznacza to zakaz przeszukiwania jakiejkolwiek podstrony. Dla *User-agent: * (wszystkich botów) jest to sposób na zamknięcie całej witryny przed robotami.
  • Jeżeli pozwalamy na przeszukiwanie całej strony, zwykle wystarczy Disallow: bez podawania ścieżki, lub po prostu nie dodawać dyrektywy Disallow w danym bloku. Przykładowo: User-agent: GPTBot Allow: / pozwala GPTBotowi na dostęp do wszystkich stron serwisu.
  • Można też tworzyć bardziej precyzyjne reguły. Na przykład:
    • Disallow: /private/ – zablokuje dostęp tylko do katalogu „private”.
    • Allow: /public/ – jawnie zezwoli na dostęp do katalogu „public”, nawet jeżeli inne reguły by go blokowały.
    • Jeśli chcemy zezwolić botom Google na całą stronę, a zablokować tylko GPTBota, można tak rozplanować reguły.
  • W praktyce największe roboty (Googlebot, Bingbot) zazwyczaj mają osobne bloki User-agent, podobnie jak roboty AI. Można także na końcu pliku umieścić reguły dla User-agent: *, które nadpisują lub uzupełniają ogólne zasady dla wszystkich pozostałych.

Jak zbudować plik robots.txt dla robotów AI

Przygotowanie pliku robots.txt nie jest trudne, ale wymaga przemyślenia. Poniżej opisujemy główne kroki i zasady, o których warto pamiętać, tworząc taki plik dla witryny, która ma być odpowiednio odczytywana przez roboty AI.

Gdzie umieścić plik i jak rozpocząć

  1. Utwórz plik w głównym katalogu – Najpierw otwórz swój edytor tekstowy i zapisz nowy plik jako robots.txt. Następnie prześlij go do głównego folderu (root) swojej witryny. Tylko wtedy roboty znajdą go pod adresem twojastrona.pl/robots.txt.
  2. Sprawdź kodowanie – Upewnij się, że plik jest kodowany w UTF-8. Unikaj BOM (znaków specjalnych na początku pliku), bo niektóre roboty mogą źle odczytać taką zawartość.
  3. Zacznij od nagłówka „User-agent” – Jeśli chcesz utworzyć reguły ogólne, możesz zacząć od User-agent: *. Następnie w kolejnych wierszach wpisz reguły Disallow/Allow. Warto też od razu pomyśleć o głównych botach AI i wyszukiwarek, by osobno określić dla nich zasady.

Definiowanie reguł dla robotów AI

  1. Wybierz roboty AI do obsługi – Zdecyduj, które boty AI chcesz pozwolić na indeksowanie i które zablokować. Na przykład możesz zezwolić GPTBotowi na dostęp, jeśli zależy Ci na obecności w odpowiedziach ChatGPT, albo zablokować go, jeśli nie chcesz udostępniać materiałów do trenowania modeli. Do wyboru są m.in.:
    • GPTBot – główny robot szkoleniowy OpenAI.
    • ChatGPT-User (oraz ChatGPT-User/2.0) – pozwala ChatGPT na pobieranie stron, gdy użytkownik prosi o cytowanie źródeł.
    • ClaudeBot, anthropic-ai, claude-web – roboty używane przez modele Claude (Anthropic).
    • PerplexityBot, Perplexity-User – roboty wyszukiwarki Perplexity.ai.
    • Google-Extended – specjalny token dla treningu Google Gemini (wykorzystuje istniejące Googleboty).
    • Applebot-Extended – analogiczny token dla treningu modeli Apple (wymaga podpisania zgody przez właściciela strony).
    • YouBot – robot wyszukiwarki You.com.
  2. Twórz osobne sekcje „User-agent” – Dla każdego rodzaju bota możesz stworzyć blok reguł:
    • User-agent: GPTBot
      Allow: / (lub Disallow: / jeśli blokujesz trening OpenAI)
    • User-agent: ChatGPT-User
      Allow: /
    • User-agent: ClaudeBot
      Allow: /
    • User-agent: PerplexityBot
      Allow: /
      i tak dalej. Jeśli nie wiesz, co wpisać, zazwyczaj możesz pozwolić na wszystko (Allow: /). Domyślne zachowanie (gdy brak reguły) to często pozwalanie, ale lepiej to określić w pliku.
  3. Ustal reguły dla Googlebot i innych klasycznych – Ponieważ roboty AI to nowość, nie zapominaj o tradycyjnych. Najlepiej w osobnych sekcjach:
    • User-agent: Googlebot (lub * i wypisanie czego nie wolno).
    • User-agent: Bingbot.
    • User-agent: * – na sam koniec możesz zdefiniować ogólne dyrektywy dla wszystkich robotów, które nie znalazły się powyżej.
  4. Grupuj reguły logicznie – Dzięki sekcjom User-agent można rozgraniczyć, jakie części serwisu są dostępne. Na przykład możesz zezwolić Googlowi i Bingowi na pełny dostęp, a GPTBotowi zabronić szkolenia: User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Allow: / Pamiętaj, że kolejność bloków w pliku nie ma znaczenia dla działania robotów – każdy robot szuka swojego identyfikatora i stosuje odpowiadające mu dyrektywy.
  5. Testuj plik – Po zapisaniu pliku warto odwiedzić twojastrona.pl/robots.txt w przeglądarce, aby upewnić się, że jest poprawnie widoczny. Możesz także użyć narzędzi do sprawdzania poprawności robots.txt (np. oficjalnego testera Google) – choć większość botów AI sama po prostu skanuje plik.

Dobre praktyki w konfiguracji robots.txt (SEO i bezpieczeństwo)

Dobry plik robots.txt to taki, który spełnia cele Twojej strony i nie psuje SEO. Oto kilka wskazówek:

  • Dobre nawyki: Umieść w robots.txt wyłącznie potrzebne reguły. Unikaj blokowania katalogów lub plików, które faktycznie powinny być indeksowane (np. ważne artykuły, produkty w sklepie). Dla AI crawlerek to samo – jeśli chcesz być cytowany czy używany w odpowiedziach, udostępnij treść.
  • Zachowaj spójność: Jeśli masz stronę z wersją www i bez, lub z wersją http i https, dbaj, by wskazywać jedną i tę samą lokalizację w robots.txt. Unikaj konfliktów (jeśli np. zalogujesz jedną z nich, boty AI mogą się pogubić w migracji).
  • Nie zamykaj JSON i API: Roboty AI czasem szukają plików JSON, aby zrozumieć strukturę strony. Jeśli masz otwarte API służące contentowej stronie, pamiętaj, aby robots.txt nie blokował plików .json, jeśli chcesz, by AI miała do nich dostęp.
  • Używaj Sitemap: Choć nie jest to główny temat, w pliku robots.txt warto wskazać mapę strony XML. To pomaga robotom (także AI) łatwo znaleźć strukturalną listę wszystkich podstron. Wystarczy linia: Sitemap: https://twojastrona.pl/sitemap.xml
  • Testuj widoczność: Regularnie sprawdzaj, jak roboty traktują Twoją stronę. Czy pojawiają się w logach serwera boty AI? Czy są błędy 403/404? Dzięki logom zobaczysz, czy Twój robots.txt działa zgodnie z planem.
  • Unikaj najczęstszych błędów: Poniżej kilka przykładów pułapek:
    • Błąd w ścieżce: Disallow: /folder bez końcowego / może zablokować też adresy rozpoczynające się na „/folder” (np. /folder123). Lepsza forma to Disallow: /folder/.
    • Nadmierne blokowanie: Czasem webmasterzy blokują główny katalog (/) i potem dodają Allow: /index.html. To ryzykowne, bo nie wszystkie boty respektują Allow. Lepiej po prostu wymienić, co blokujemy, a reszta jest dozwolona.
    • Brak dyrektyw dla ważnych botów: Jeśli zapomnieliśmy dodać User-agent: Googlebot, Google użyje reguł User-agent: *. Ale jeśli przypadkowo w * zablokujemy coś istotnego, nasza strona może zniknąć z wyników wyszukiwania. Trzeba uważać.
    • Literówki: Robota blokujemy dokładnie po nazwie. Wpisanie User-agent: GPT Bot (z odstępem) nie zadziała – musi być GPTBot.
    • Kolejność, która myli: Choć kolejność sekcji nie wpływa na działanie, to czytelność pliku już tak. Grupuj więc razem reguły dotyczące np. wszystkich botów AI, a potem zapisz osobno pozostałe.

Z perspektywy SEO, robots.txt powinien chronić zasoby przed niechcianymi botami (np. automaty kopiujące treść), ale też zapewniać indeksowanie cennych stron. Przy optymalizacji SEO myśli się nie tylko o Google, ale i o nowych sposobach dostępu do treści – coraz częściej użytkownicy znajdują odpowiedzi dzięki asystentom AI. Jeśli Twój plik robots.txt uniemożliwi im zobaczenie wartościowych treści, możesz stracić na tym, że Twoja witryna będzie mniej cytowana lub widoczna w odpowiedziach generowanych przez AI.

Podsumowanie

Budując plik robots.txt, należy pamiętać, że to swoisty „strażnik” dostępu do witryny dla botów wyszukiwarek i LLM. Zrozumienie podstawowych dyrektyw (User-agent, Disallow, Allow) pozwala precyzyjnie określić, które roboty mogą indeksować treść, a które powinny zostać zatrzymane. W dobie sztucznej inteligencji warto też uwzględnić nowe identyfikatory botów, takich jak GPTBot, ChatGPT-User, ClaudeBot czy PerplexityBot. Dobrze skonfigurowany plik robots.txt pomaga zoptymalizować stronę nie tylko pod kątem tradycyjnych wyszukiwarek, ale i pod kątem inteligentnych asystentów.

Pamiętaj o zaktualizowaniu pliku wraz ze zmianami na stronie – gdy pojawia się nowy ważny dział, trzeba go uwzględnić w regułach, tak by roboty wiedziały, co mogą indeksować. Regularne monitorowanie logów i testowanie zasad pozwoli uniknąć pomyłek. Z tak przygotowanym plikiem robots.txt Twoja strona będzie przyjazna i widoczna zarówno dla klasycznych robotów, jak i dla nowych indeksujących robotów AI.

< Powrót

Zapisz się do newslettera


Zadzwoń Napisz