Co to jest plik robots.txt?

Robots.txt to plik tekstowy, który znajduje się w głównym katalogu witryny i zawiera instrukcje dla robotów indeksujących (botów wyszukiwarek). Dzięki niemu można wskazać, które obszary strony internetowej roboty mogą przeszukiwać, a do których dostęp mają zabroniony. Oznacza to, że za pomocą robots.txt da się ograniczyć botom dostęp do wybranych stron lub plików, aby uniknąć indeksowania treści niepożądanych lub nieistotnych. Dla specjalistów SEO i marketerów internetowych plik robots.txt to istotne narzędzie optymalizacji – pozwala skupić działanie robotów na najważniejszych częściach witryny i efektywnie zarządzać potencjałem indeksowania.

Znaczenie pliku robots.txt w pozycjonowaniu stron

W kontekście pozycjonowania stron internetowych (SEO) plik robots.txt odgrywa istotną rolę. Pozwala on kontrolować, które części witryny są dostępne dla robotów wyszukiwarek, a które roboty pomijają. Dzięki temu wyszukiwarki internetowe poświęcają więcej uwagi tym stronom, które są naprawdę ważne dla użytkowników oraz właściciela strony. Jeśli serwis zawiera wiele podstron o niewielkiej wartości (np. strony z wynikami wyszukiwania wewnętrznego, duplikaty treści, strony testowe lub robocze), to poprzez odpowiednie ustawienia w robots.txt można sprawić, że roboty indeksujące nie będą marnować na nie czasu. Skuteczne wykorzystanie robots.txt przekłada się na optymalne użycie tzw. crawl budget (budżetu indeksowania), czyli limitu zasobów i czasu, jaki roboty wyszukiwarek przeznaczają na indeksowanie danej witryny. Poprzez zablokowanie mniej istotnych sekcji serwisu, roboty mogą skupić się na zawartości najważniejszej z perspektywy SEO – takiej, która realnie wpływa na widoczność strony w wynikach wyszukiwania i przyciąga ruch organiczny. W efekcie roboty wyszukiwarek mogą szybciej i skuteczniej zaindeksować najważniejsze treści, które decydują o sukcesie marketingowym witryny. Ponadto obecność prawidłowo skonfigurowanego pliku robots.txt świadczy o dbałości o techniczne aspekty SEO, co pośrednio wpływa na wiarygodność witryny w oczach wyszukiwarek. Oczywiście sam plik robots.txt nie poprawi jakości treści ani profilu linków strony, ale stanowi jeden z elementów kompleksowej strategii optymalizacji, pomagając uniknąć problemów z indeksowaniem niechcianych podstron.

Jak stworzyć plik robots.txt i prawidłowo go zastosować?

Przygotowanie własnego pliku robots.txt nie jest skomplikowane i nie wymaga specjalistycznego oprogramowania. Wystarczy otworzyć dowolny edytor tekstowy (np. Notatnik w Windows lub TextEdit w Mac) i zapisać nowy plik o nazwie robots.txt. Ważne, aby nazwa była pisana małymi literami i dokładnie w takiej formie. Następnie należy wprowadzić do pliku odpowiednie dyrektywy (reguły), określające uprawnienia dostępu dla robotów. Każdą dyrektywę umieszcza się w osobnej linii. Po przygotowaniu treści pliku trzeba go zapisać w formacie tekstowym (kodowanie UTF-8) i umieścić na serwerze w katalogu głównym witryny. Oznacza to, że plik powinien być dostępny pod adresem Twojej strony, np. https://twojadomena.pl/robots.txt. Warto pamiętać, że dla każdej domeny (a także subdomen) obsługiwany jest osobny plik robots.txt – roboty wyszukiwarek zawsze szukają go tylko w głównej lokalizacji domeny. Jeśli umieścimy plik w niewłaściwym miejscu lub nazwiemy go inaczej, wyszukiwarki go nie znajdą i nie zastosują się do zawartych w nim instrukcji. Równie ważne jest to, że plik robots.txt jest publicznie dostępny dla każdego użytkownika internetu – nie należy więc umieszczać w nim informacji poufnych ani próbować wykorzystywać go jako zabezpieczenia dostępu do danych. Po umieszczeniu pliku na serwerze warto sprawdzić, czy jest on poprawnie dostępny – wystarczy wpisać jego adres URL w przeglądarce, aby zobaczyć, czy treść pliku się wyświetla. Jeśli w danym serwisie nie ma potrzeby blokowania żadnych zasobów, plik robots.txt nie jest obowiązkowy (brak pliku oznacza, że roboty mogą indeksować całą witrynę bez ograniczeń). Wielu właścicieli stron i tak decyduje się go utworzyć, chociażby po to, aby dodać w nim adres mapy witryny (Sitemap) i ułatwić wyszukiwarkom pełne zaindeksowanie strony.

  • Nazwa i lokalizacja: Upewnij się, że plik nazywa się dokładnie „robots.txt” i znajduje się w głównym katalogu domeny.
  • Format pliku: Tworząc plik, używaj zwykłego formatu tekstowego (UTF-8, znaki ASCII bez polskich znaków) bez dodatkowych stylów czy formatowania.
  • Jeden plik na domenę: Dla każdej domeny (oraz każdej subdomeny) należy przygotować oddzielny plik robots.txt, umieszczony w jej głównym katalogu.
  • Publiczny charakter: Zawartość robots.txt jest jawna – każdy może ją podejrzeć, wpisując odpowiedni adres URL, dlatego nie wpisuj tam niczego, czego nie chcesz ujawniać.

Składnia pliku robots.txt i podstawowe dyrektywy

Plik robots.txt ma prostą strukturę tekstową, ale wymaga przestrzegania pewnych zasad składni. Składa się on z tzw. rekordów, z których każdy zawiera zestaw dyrektyw dotyczących określonego robota lub grupy robotów. Taki rekord rozpoczyna się od wskazania User-agent – czyli nazwy robota, którego dotyczą zawarte dalej reguły. Najczęściej stosuje się User-agent: *, co oznacza, że dane reguły odnoszą się do wszystkich robotów odwiedzających stronę. Po określeniu user-agenta następują dyrektywy definiujące dozwolony lub zabroniony dostęp do wybranych zasobów. W każdej linii można umieścić tylko jedną dyrektywę w formacie Dyrektywa: wartość. Standardowe dyrektywy to Disallow (blokowanie dostępu do wskazanego zasobu lub ścieżki) oraz Allow (zezwolenie na dostęp, używane głównie w celu doprecyzowania wyjątków od reguł blokujących). Dodatkowo można umieścić wpis Sitemap, który informuje roboty o lokalizacji mapy witryny (XML Sitemap). Istnieją też mniej powszechne dyrektywy, takie jak Crawl-delay, jednak Google ich nie obsługuje – respektuje je tylko część innych wyszukiwarek. Ważne jest, że w obrębie jednego pliku robots.txt można umieścić wiele rekordów dla różnych botów – na przykład osobny zestaw dyrektyw dla Googlebota, osobny dla Binga itd., jeśli zachodzi taka potrzeba. Należy też pamiętać, że można dodawać komentarze poprzedzone znakiem # – roboty wyszukiwarek całkowicie je ignorują, więc możesz w ten sposób zostawić notatki dla siebie lub innych osób zarządzających witryną. Wszelkie nazwy dyrektyw nie rozróżniają wielkości liter, ale przyjmuje się konwencję pisania ich małymi literami. Z kolei wartości (np. ścieżki URL) często są wrażliwe na wielkość liter, w zależności od konfiguracji serwera – warto zachować dokładność w pisowni. W następnym punkcie omówimy najważniejsze dyrektywy bardziej szczegółowo.

User-agent

Dyrektywa User-agent określa, którego robota sieciowego dotyczy zbiór poniższych reguł. Każdy wpis w pliku robots.txt powinien zaczynać się właśnie od tej dyrektywy. Można wskazać konkretną nazwę robota (np. Googlebot dla wyszukiwarki Google, Bingbot dla Binga itp.), aby zastosować reguły tylko do niego. Użycie wartości * (gwiazdki) oznacza, że reguły mają zastosowanie do wszystkich robotów, niezależnie od ich pochodzenia. Jeśli chcemy zdefiniować osobne zasady dla różnych botów, tworzymy oddzielne sekcje zaczynające się od kolejnych dyrektyw User-agent.

Disallow

Disallow to podstawowa dyrektywa służąca do blokowania dostępu robotów do określonych zasobów strony. Po dwukropku należy podać ścieżkę (relative URL) lub katalog, którego nie powinien odwiedzać dany robot. Na przykład wpis Disallow: /koszyk/ zabroni wszystkim robotom (jeśli dotyczy sekcji z User-agent: *) wchodzenia na podstrony znajdujące się w katalogu /koszyk/. Gdy chcemy zablokować całą witrynę, możemy użyć Disallow: / (w sekcji z User-agent: *), co stanowi instrukcję dla robotów, by nie indeksowały żadnych podstron serwisu. Ważne: pozostawienie pola po „Disallow:” pustego oznacza, że nie ma żadnych ograniczeń dla danego agenta (czyli robot może indeksować wszystko). Można też stosować symbole specjalne – np. * zastępuje dowolny ciąg znaków, a znak $ oznacza koniec ciągu. Dzięki temu dyrektywa Disallow: /*.pdf$ zablokuje indeksowanie wszystkich URL zakończonych na „.pdf”.

Allow

Dyrektywa Allow działa odwrotnie do Disallow i służy do zezwalania na dostęp do określonych zasobów, nawet jeśli ich ścieżka wchodzi w zakres zablokowany ogólnie przez dyrektywy Disallow. W praktyce używa się jej wtedy, gdy chcemy stworzyć wyjątek od szerszego ograniczenia. Przykładowo, jeśli zablokowaliśmy cały katalog /private/, ale jeden plik w jego obrębie powinien być dostępny dla robotów, możemy użyć Allow, aby wskazać ten plik. Dyrektywa Allow jest respektowana głównie przez Google i kilka innych wyszukiwarek – oznacza to, że w przypadku konfliktu (kiedy jedna ścieżka jest zarówno dozwolona, jak i zabroniona) Googlebot zastosuje regułę najdokładniejszą (najbardziej szczegółową). Dzięki temu można precyzyjnie kontrolować indeksowanie, o ile poprawnie ustawimy zakresy Disallow i Allow.

Sitemap

Sitemap to dodatkowa dyrektywa w pliku robots.txt, która wskazuje robotom wyszukiwarek lokalizację mapy witryny w formacie XML. Poprzez umieszczenie w robots.txt wiersza zaczynającego się od Sitemap: możemy ułatwić robotom odnalezienie kompletnej listy URL-i naszej strony. Przykładowo: Sitemap: https://twojadomena.pl/sitemap.xml – taka linijka informuje, gdzie znajduje się plik mapy strony. Choć roboty potrafią znaleźć mapę witryny także innymi metodami (np. dzięki zgłoszeniu jej w Google Search Console lub odnalezieniu linku), podanie jej adresu w robots.txt jest zalecane jako jedna z dobrych praktyk SEO. Specjaliści SEO zalecają dodanie takiej informacji w pliku robots.txt jako dobrą praktykę – warto to zrobić, bo uchodzi to za dobrą praktykę SEO. Warto dodać, że dyrektywa ta nie ogranicza dostępu, a jedynie dostarcza użytecznej informacji robotom.

Jakie zasoby warto zablokować w robots.txt?

Planując konfigurację pliku robots.txt, należy zastanowić się, które części witryny najlepiej wyłączyć z indeksowania przez wyszukiwarki. Zablokowanie niektórych zasobów może pomóc skupić uwagę robotów na bardziej wartościowych stronach oraz zapobiec wyświetlaniu w wynikach wyszukiwania treści mało przydatnych dla użytkownika. Typowym kandydatem do wykluczenia są wszelkie sekcje administracyjne lub zaplecza strony, np. panele administracyjne, strony logowania czy katalogi z plikami systemowymi CMS. Użytkownicy i tak nie powinni trafiać na tego typu podstrony z poziomu Google, a ich indeksacja nie przynosi żadnej korzyści. Kolejną kategorią są strony tworzone dynamicznie, które nie stanowią unikalnej treści. Przykładowo wewnętrzne wyniki wyszukiwania (np. lista wyników, którą generuje pole wyszukujące na stronie) zazwyczaj duplikują informacje już dostępne na innych podstronach. Podobnie może być z stronami filtrów czy sortowania w sklepach internetowych – np. strona kategorii z nałożonym filtrem cen lub innym parametrem URL. Takie strony często powielają zawartość istniejących stron kategorii, co może prowadzić do problemu z duplikacją treści i rozproszeniem rankingu SEO. Blokując je w robots.txt, kierujemy roboty ku bardziej kanonicznym wersjom stron. Można również rozważyć wyłączenie z indeksowania niektórych plików multimedialnych lub dokumentów, jeśli nie są istotne dla wyników wyszukiwania. Na przykład zdjęcia lub grafiki czysto dekoracyjne (które nie mają znaczenia dla pozycjonowania) nie muszą być indeksowane przez Google Images. Podobnie pliki PDF, DOC czy inne dokumenty, które nie wnoszą wartości z punktu widzenia SEO, można zablokować, aby nie odciągały uwagi od stron HTML z treścią. Oczywiście, decyzja o blokowaniu takich zasobów powinna być przemyślana – jeśli zależy nam, by np. zdjęcia pojawiały się w wynikach wyszukiwania grafik, wówczas nie należy ich blokować. Generalnie robots.txt służy do eliminacji z indeksu tego, co zbędne lub potencjalnie szkodliwe (np. mogącego zdezorientować użytkownika). Poniżej kilka przykładów typów adresów, które często wyklucza się za pomocą tej metody:

  • Sekcje administracyjne i logowania: np. /admin/, /login, /wp-admin/ (panel WordPress) itp.
  • Wewnętrzne wyniki wyszukiwania: np. /szukaj?, ?s= (typowe dla WordPress), czyli podstrony pokazujące listę wyników wyszukiwania na samej stronie.
  • Strony z filtrami i parametrami: np. adresy z parametrami ?sort=, ?filter=, &page=2 itp., które generują zduplikowane lub podobne treści.
  • Treści tymczasowe lub testowe: np. strony będące w budowie, wersje robocze artykułów, kopie testowe – jeśli przez przypadek znalazły się online, warto je zablokować przed indeksacją.
  • Nieużyteczne pliki: np. katalogi z plikami typu /old/ zawierające stare wersje strony, /tmp/ z plikami tymczasowymi, pliki dokumentów czy skryptów, które nie są przeznaczone dla odwiedzających.

Testowanie i weryfikacja pliku robots.txt

Po utworzeniu lub zmodyfikowaniu pliku robots.txt należy upewnić się, że działa on zgodnie z oczekiwaniami. Najprostszym sposobem jest skorzystanie z dostępnych narzędzi do testowania. Google udostępnia w ramach Search Console specjalne narzędzie do analizy pliku robots.txt (tzw. Robots Tester). Pozwala ono sprawdzić, czy wprowadzone reguły rzeczywiście blokują lub dopuszczają dostęp do wybranych adresów URL. Wystarczy w Narzędziu do testowania wkleić zawartość pliku lub wybrany fragment i podać adres strony, a system pokaże, która linijka pliku odpowiada za zezwolenie lub blokadę dostępu. Narzędzie to wskaże również ewentualne błędy składniowe w pliku, dzięki czemu można je szybko poprawić. Jeśli nie mamy dostępu do Search Console lub chcemy przetestować plik jeszcze przed wdrożeniem go na stronie, można skorzystać z wielu darmowych narzędzi online oferowanych przez społeczność SEO. Takie testery pozwalają zasymulować działanie różnych robotów (np. Googlebota, Binga) i sprawdzić, które sekcje witryny zostaną zablokowane. Warto również okresowo monitorować swoją witrynę pod kątem blokowania – np. za pomocą raportów indeksowania w Search Console, które pokazują, czy jakieś adresy zostały wykluczone przez plik robots.txt. Regularna weryfikacja pomaga wychwycić potencjalne problemy (np. przypadkowo zablokowane ważne strony) i daje pewność, że nasza konfiguracja robots.txt wspiera strategię SEO, zamiast jej szkodzić.

Czy plik robots.txt usuwa strony z wyników wyszukiwania?

Krótka odpowiedź brzmi: nie, sam plik robots.txt nie powoduje usunięcia żadnej strony z indeksu wyszukiwarki. Robots.txt jedynie blokuje robotom dostęp do zawartości wskazanych stron, ale jeśli dana strona już znajduje się w indeksie Google (lub innej wyszukiwarki), to pozostanie tam nawet po zablokowaniu jej w robots.txt. W praktyce wyszukiwarka może wciąż wyświetlać adres URL takiej zablokowanej strony w wynikach, zwłaszcza jeśli prowadzą do niej jakieś linki zewnętrzne lub wewnętrzne. Będzie to jednak często wynik bez opisu (snippetu), ponieważ robot nie może pobrać treści, by wygenerować opis – użytkownik zobaczy w Google co najwyżej sam adres URL strony. Aby faktycznie usunąć daną podstronę z wyników wyszukiwania, należy zastosować inne metody, takie jak np. znacznik meta robots z wartościami „noindex” (lub nagłówek HTTP X-Robots-Tag) na tej stronie bądź skorzystać z narzędzi do usuwania URL-i oferowanych przez wyszukiwarki. Ważne jest przy tym, aby robot wyszukiwarki miał dostęp do takiej strony w celu odczytania wspomnianego znacznika. Oznacza to, że nie można jednocześnie zablokować strony w robots.txt i oczekiwać, że noindex zadziała – robot nigdy nie odwiedzi zablokowanej strony, a więc nie odczyta polecenia jej usunięcia z indeksu. Poprawne postępowanie w takiej sytuacji to najpierw umożliwić robotom dostęp do strony (lub tymczasowo usunąć blokadę w robots.txt) i umieścić na niej odpowiedni meta tag noindex. Gdy wyszukiwarka przetworzy zmianę i usunie URL z indeksu, wówczas można ponownie zablokować dostęp do tej treści, jeśli wymaga tego polityka witryny. Warto też dodać, że samo istnienie wpisu w robots.txt nie jest dla wyszukiwarek sygnałem, by usunąć stronę z wyników – traktują go tylko jako instrukcję ograniczenia dostępu.

Najczęstsze błędy przy tworzeniu pliku robots.txt

Nawet drobna pomyłka w pliku robots.txt może skutkować poważnymi konsekwencjami dla widoczności strony w wyszukiwarkach. Dlatego warto poznać typowe błędy, aby ich uniknąć. Zdarzało się, że przez jedną błędną dyrektywę cała witryna wypadała z indeksu Google, co przekładało się na drastyczny spadek ruchu i przychodów firmy. Innym razem niepozorna literówka sprawiała, że zamierzona blokada nie działała i poufne sekcje serwisu stawały się dostępne w wynikach wyszukiwania. Aby zapobiec takim sytuacjom, należy bardzo uważnie wprowadzać zmiany w pliku i każdorazowo testować jego działanie. Warto również okresowo sprawdzać plik robots.txt, zwłaszcza po większych zmianach na stronie – zdarza się, że nieaktualne lub błędne wpisy pozostają przez dłuższy czas niezauważone. Jeżeli witryna nagle traci znaczną część ruchu z Google lub najważniejsze podstrony znikają z indeksu, jednym z pierwszych kroków diagnostycznych powinno być właśnie skontrolowanie pliku robots.txt. W razie wątpliwości warto skonsultować planowane zmiany z doświadczonym specjalistą SEO lub sięgnąć do oficjalnej dokumentacji. Lepiej poświęcić dodatkowy czas na weryfikację, niż później naprawiać skutki błędu w pliku robots.txt. Do najczęstszych błędów należą między innymi: przypadkowe zablokowanie całej witryny, błędna nazwa lub lokalizacja pliku, błędy składni (np. brak znaku dwukropka czy użycie niedozwolonych znaków lub pełnych adresów URL), zablokowanie istotnych zasobów (np. plików CSS i JS), ujawnianie w pliku informacji poufnych oraz wykorzystywanie robots.txt niezgodnie z przeznaczeniem (np. do prób usuwania stron z indeksu).

  • Całkowite zablokowanie całej witryny przez pomyłkę: Jeden z najbardziej brzemiennych w skutki błędów. Wystarczy jedna linijka Disallow: / umieszczona w sekcji User-agent: *, aby zatrzymać indeksowanie całego serwisu. Często zdarza się to podczas prac nad stroną (blokada ma zapobiec indeksacji wersji testowej), a następnie plik zostaje omyłkowo przeniesiony na wersję produkcyjną. Rezultatem jest nagłe zniknięcie strony z wyników wyszukiwania. Zawsze upewniaj się, że nie pozostawiłeś globalnej blokady przed publikacją serwisu.
  • Błędna nazwa lub lokalizacja pliku: Plik nazwany inaczej niż „robots.txt” lub umieszczony w złym katalogu nie będzie spełniać swojej roli, ponieważ roboty go nie znajdą. Przykładowo, umieszczenie robots.txt w podkatalogu /blog/ zamiast bezpośrednio w głównym katalogu domeny spowoduje, że dla robotów wyszukiwarek taka konfiguracja będzie niewidoczna. Podobnie literówki w nazwie pliku (np. „robot.txt” bez „s” lub użycie wielkich liter) oznaczają, że wyszukiwarka potraktuje to tak, jakby pliku nie było.
  • Błędy składni i formatowania: Robots.txt musi być pisany w odpowiednim formacie. Błędy typu brak dwukropka po nazwie dyrektywy, użycie nieobsługiwanych poleceń lub niepoprawnych znaków mogą sprawić, że robot zignoruje część (albo całość) pliku. Należy także uważać na kodowanie – użycie niestandardowych znaków (np. polskich ogonków) w ścieżkach może prowadzić do problemów, jeśli robot ich nie rozpozna. Dlatego zaleca się korzystanie wyłącznie ze znaków ASCII i upewnienie się, że plik jest zapisany w UTF-8.
  • Blokowanie istotnych zasobów strony: Czasem w ferworze blokowania „niepotrzebnych” elementów witryny webmasterzy blokują również zasoby, które są istotne dla działania i pozycjonowania strony. Klasycznym przykładem jest zablokowanie plików CSS czy JavaScript, które odpowiadają za prawidłowe wyświetlanie i działanie serwisu. Google zaleca, aby nie blokować dostępu do tych zasobów, ponieważ utrudnia to crawlerowi ocenę strony (nie widzi on pełnej wersji renderowanej). Innym przypadkiem jest zablokowanie obrazów, podczas gdy celem strony jest np. ruch z Google Grafika – taki krok również byłby przeciwskuteczny.
  • Ujawnianie poufnych informacji: Plik robots.txt jest publicznie dostępny, a niektórzy mniej doświadczeni administratorzy wpisują do niego ścieżki do wrażliwych plików lub katalogów, sądząc, że w ten sposób je „ukryją” przed robotami. W rzeczywistości taka praktyka może tylko zwrócić uwagę osób trzecich na te lokalizacje. Robots.txt nie służy do zabezpieczania dostępu – jeśli jakieś dane są poufne, powinny być chronione np. hasłem, a nie jedynie wykluczone z indeksowania.
  • Stosowanie robots.txt zamiast innych metod wykluczania: Kolejny często spotykany błąd to poleganie wyłącznie na robots.txt w sytuacjach, gdy należałoby użyć innych narzędzi. Przykładowo, próbowanie usunięcia z wyników wyszukiwania strony już zindeksowanej tylko poprzez dodanie jej do Disallow nie zadziała (jak wyjaśniono wyżej). Podobnie, robots.txt nie zastąpi odpowiednich meta tagów (np. noindex) czy ustawień nofollow dla linków. Zawsze dobieraj narzędzie do celu: robots.txt jest świetny do ograniczania dostępu do nieistotnych obszarów, ale nie załatwi wszystkiego.

Umów się na darmową
konsultację


Jesteś zainteresowany usługą? Chcesz dowiedzieć się więcej? Zapraszamy do kontaktu – przeprowadzimy bezpłatną konsultację.

 

    Ile to kosztuje?

    Koszt uzależniony jest od usług zawartych w wybranym planie. Możesz wybrać jeden z gotowych planów lub opracowany indywidualnie, dostosowany do potrzeb Twojej firmy zależnie od tego, jakich efektów oczekujesz. Umów się z nami na bezpłatną konsultację, a my przyjrzymy się Twojej firmie.

    Zadzwoń Napisz