Czym jest plik robots.txt? i jak wpływa na pozycjonowanie

  • 6 minut czytania
  • Pozycjonowanie sklepów internetowych, SEO
Robots.txt a pozycjonowanie

Plik robots.txt to jedno z podstawowych narzędzi, które pozwala właścicielom lub administratorom stron internetowych przekazywać instrukcje robotom wyszukiwarek, które badają każdy zakamarek witryny. Odpowiednia konfiguracja pliku robots.txt pozwala odciążyć witrynę z nadmiernej ilości wysyłanych do niej żądań. Przez wiele osób narzędzie w postaci pliku robots.txt jest postrzegane jako sposób na ukrycie witryny przed wyszukiwarką – np. Google, ale nie jest to najlepsze rozwiązanie.


Za co odpowiada plik robots.txt?

Głównym zadaniem pliku robots.txt, a raczej zawartych w nim instrukcji, jest kierowanie i zarządzaniem ruchem robotów kierowanych przez wyszukiwarki. Najczęściej polecenia zawarte w robots.txt stosuje się do wykluczenia strony z indeksu Google lub innej wyszukiwarki. Warto pamiętać, że skuteczność działania wprowadzonych instrukcji w dużym stopniu zależy od rodzaju i typu strony.

Strony internetowe w formacie HTML, PDF oraz innych możliwych do odczytu przez roboty Google mogą być skutecznie obsługiwane omawianą metodą. Wprowadzone instrukcje dadzą wyraźny znak robotom o tym, że dane strony mają zostać pominięte podczas indeksowania. Dzięki temu strony bardzo podobne do siebie, nieistotne dla użytkownika lub nieukończone mogą być wykluczone z indeksowania przez roboty Google. To pozwala na odciążenie serwera z napływających żądań.

Należy jednak pamiętać, że plik robots.txt nie służy do ukrywania podstron przed widocznością w wyszukiwarce. W przypadku, gdy prowadzą do nich linki z zewnętrznych stron, strona może pojawić się w wynikach wyszukiwania, nawet jeśli robot jej nie odwiedził, ponieważ została wykluczona w pliku robots.txt. Efektem tego może być wyświetlanie odnośnika do strony, ale bez kluczowych i wartościowych informacji w title i meta description. W celu trwałej blokady indeksowania strony należy zastosować dyrektywę noindex lub zabezpieczyć dostęp do witryny hasłem.

Odpowiednim zastosowaniem wykluczania treści z indeksacji poprzez plik robots.txt jest obsługa plików multimedialnych oraz plików zasobu. Multimedia obejmują oczywiście zdjęcia, grafiki, materiały wideo, nagrania dźwiękowe oraz wszelkiego rodzaju pliki do pobrania przez użytkownika. Instrukcje zawarte w robots.txt pozwalają ukryć wymienione pliki multimedialne przed wyświetlaniem w Google, ale nadal możliwe jest kierowanie do nich z innych stron bezpośrednim linkiem. Pliki zasobu obejmują skrypty, style css i obrazy. Jeśli ich obsługa nie wpływa istotnie na działanie serwisu, to można wykluczyć ich obsługę przez roboty.

Plik robots.txt a zewnętrzna usługa hostingowa

Osoby korzystające z zewnętrznych rozwiązań, które pozwalają stworzyć stronę lub sklep internetowy za pomocą zewnętrznych kreatorów, nie zawsze będą miały możliwość indywidualnej obsługi pliku robots.txt lub nie będzie to konieczne.

Gotowe systemy często wyposażone są w odgórnie skonfigurowane mechanizmy i ustawienia. Zarządzają plikiem robots.txt albo wykorzystują inne rozwiązania, których zadaniem jest określenie możliwości indeksacji zasobów strony. W takim przypadku administrator strony ma ograniczone możliwości działania, a zakres uprawnień zależy od wybranej usługi hostingowej.

Plik robots.txt – na co uważać?

Funkcjonalności określone przez plik robots.txt oczywiście mają swoje ograniczenia jak każde rozwiązanie technologiczne. Jest kilka kwestii, na które szczególnie należy zwracać uwagę, aby korzystać ze wszystkich możliwości tego rozwiązania, ale nie oczekiwać kwestii nieosiągalnych.

Przede wszystkim należy podkreślić, że każda z wielu różnych wyszukiwarek może inaczej interpretować składnię poleceń z pliku robot.txt, a nawet w niektórych przypadkach zupełnie jej nie wziąć pod uwagę! Roboty największych wyszukiwarek raczej są pod tym kątem spójne i jednakowo realizują treść poleceń, ale mniejsze wyszukiwarki i systemy już niekoniecznie.

W wielu przypadkach może okazać się, że instrukcja w robots.txt zostanie zupełnie inaczej zinterpretowana przez różne roboty, co wpływa na ostateczny wynik zaindeksowanych treści. To sprawia, że dane, które szczególnie chcemy ukryć przed indeksowaniem w jakichkolwiek wyszukiwarkach treści, należy dodatkowo zabezpieczać – na przykład hasłem.

Istotną kwestią jest również problem z jednoczesnym wykorzystaniem wielu poleceń odpowiedzialnych za regulację kwestii związanych z indeksowaniem treści. To sposób, który niekiedy jest próbą wpłynięcia na różnego typu roboty. Niestety czasami okazuje się, że zamieszczone instrukcje wzajemnie się wykluczają i plik robots.txt nie spełnia swojego zadania.

Jeśli wykorzystujemy dyrektywy w robots.txt do stron, które dostępne są w internecie, to niekoniecznie mogą zostać spełnione wszystkie wymagania. Warto pamiętać, że zablokowanie indeksowania strony poprzez plik robots.txt okaże się nieskuteczne w momencie, gdy dany adres dostępny jest w innym miejscu internetu, czyli prowadzą do niego zewnętrzne linki. W takiej sytuacji adres podstrony oraz podstawowe informacje mogą zostać odczytane i zaindeksowane przez wyszukiwarkę.

Jak stworzyć plik robots.txt?

Tak naprawdę do stworzenia pliku robots.txt wystarczy najprostszy edytor tekstowy dostępny na każdym komputerze – notatnik. Do wgrania pliku na serwer również nie są wymagane skomplikowane narzędzia – konieczny jest jedynie dostęp do głównego katalogu serwera FTP, na którym znajdują się pliki strony.

Jeśli Twoja strona została zbudowana na zewnętrznym systemie CMS lub Ecommerce, możliwa jest sytuacja, w której plik robots.txt został utworzony automatycznie. Musisz to zweryfikować i ewentualnie edytować powstały dokument, ponieważ na serwerze może znajdować się wyłącznie jeden plik o nazwie robots.txt – inne nazewnictwo sprawi, że roboty na pewno zignorują zawarte w nim polecenia.
Instrukcje dla robotów są stosunkowo proste i tak naprawdę opierają się o kilka podstawowych poleceń:

  • „User-agent” – określa, do którego bota odnoszą się zamieszczone niżej instrukcje. W celu zamieszczenia polecenia odnoszącego się do wszystkich botów należy wpisać gwiazdkę – „*” zamiast nazwy.
  • „Disallow” – informuje boty, które elementy strony powinny zostać zignorowane i pominięte podczas indeksacji.
  • „Allow” – jest to domyślny tryb dla całej witryny i nie trzeba go stosować. Wykorzystuje się go do udostępnienia np. folderu podrzędnego w folderze wykluczonym za pomocą polecenia „Disallow” – wtedy robot ma dostęp tylko do tego konkretnego wycinka pamięci.

Szczegółowych informacje o składni, wymogach i możliwościach należy szukać w dokumentacji publikowanej przez konkretną wyszukiwarkę – na przykład Google.

Sprawdzanie poprawności pliku robots.txt.

W celu sprawdzenia poprawności instrukcji zawartych w pliku robots.txt warto skorzystać z dostępnych w sieci narzędzi. Między innymi Google Search Console udostępnia skuteczny tester, który pozwala na weryfikację pliku. Dzięki temu każdy ma możliwość przetestowania działania robots.txt pod względem poprawności działania, ewentualnych literówek oraz innych problemów.

< Powrót

Zapisz się do newslettera