Czym jest plik robots.txt? i jak wpływa na pozycjonowanie

Czym jest plik robots.txt? i jak wpływa na pozycjonowanie

Plik robots.txt to jedno z podstawowych narzędzi, które pozwala właścicielom lub administratorom stron internetowych przekazywać instrukcje robotom wyszukiwarek, które badają każdy zakamarek witryny. Odpowiednia konfiguracja pliku robots.txt pozwala odciążyć witrynę z nadmiernej ilości wysyłanych do niej żądań. Przez wiele osób narzędzie w postaci pliku robots.txt jest postrzegane jako sposób na ukrycie witryny przed wyszukiwarką – np. Google, ale nie jest to najlepsze rozwiązanie.


Za co odpowiada plik robots.txt?

Głównym zadaniem pliku robots.txt, a raczej zawartych w nim instrukcji, jest kierowanie i zarządzaniem ruchem robotów kierowanych przez wyszukiwarki. Najczęściej polecenia zawarte w robots.txt stosuje się do wykluczenia strony z indeksu Google lub innej wyszukiwarki. Warto pamiętać, że skuteczność działania wprowadzonych instrukcji w dużym stopniu zależy od rodzaju i typu strony.

Strony internetowe w formacie HTML, PDF oraz innych możliwych do odczytu przez roboty Google mogą być skutecznie obsługiwane omawianą metodą. Wprowadzone instrukcje dadzą wyraźny znak robotom o tym, że dane strony mają zostać pominięte podczas indeksowania. Dzięki temu strony bardzo podobne do siebie, nieistotne dla użytkownika lub nieukończone mogą być wykluczone z indeksowania przez roboty Google. To pozwala na odciążenie serwera z napływających żądań.

Należy jednak pamiętać, że plik robots.txt nie służy do ukrywania podstron przed widocznością w wyszukiwarce. W przypadku, gdy prowadzą do nich linki z zewnętrznych stron, strona może pojawić się w wynikach wyszukiwania, nawet jeśli robot jej nie odwiedził, ponieważ została wykluczona w pliku robots.txt. Efektem tego może być wyświetlanie odnośnika do strony, ale bez kluczowych i wartościowych informacji w title i meta description. W celu trwałej blokady indeksowania strony należy zastosować dyrektywę noindex lub zabezpieczyć dostęp do witryny hasłem.

Odpowiednim zastosowaniem wykluczania treści z indeksacji poprzez plik robots.txt jest obsługa plików multimedialnych oraz plików zasobu. Multimedia obejmują oczywiście zdjęcia, grafiki, materiały wideo, nagrania dźwiękowe oraz wszelkiego rodzaju pliki do pobrania przez użytkownika. Instrukcje zawarte w robots.txt pozwalają ukryć wymienione pliki multimedialne przed wyświetlaniem w Google, ale nadal możliwe jest kierowanie do nich z innych stron bezpośrednim linkiem. Pliki zasobu obejmują skrypty, style css i obrazy. Jeśli ich obsługa nie wpływa istotnie na działanie serwisu, to można wykluczyć ich obsługę przez roboty.

Plik robots.txt a zewnętrzna usługa hostingowa

Osoby korzystające z zewnętrznych rozwiązań, które pozwalają stworzyć stronę lub sklep internetowy za pomocą zewnętrznych kreatorów, nie zawsze będą miały możliwość indywidualnej obsługi pliku robots.txt lub nie będzie to konieczne.

Gotowe systemy często wyposażone są w odgórnie skonfigurowane mechanizmy i ustawienia. Zarządzają plikiem robots.txt albo wykorzystują inne rozwiązania, których zadaniem jest określenie możliwości indeksacji zasobów strony. W takim przypadku administrator strony ma ograniczone możliwości działania, a zakres uprawnień zależy od wybranej usługi hostingowej.

Plik robots.txt – na co uważać?

Funkcjonalności określone przez plik robots.txt oczywiście mają swoje ograniczenia jak każde rozwiązanie technologiczne. Jest kilka kwestii, na które szczególnie należy zwracać uwagę, aby korzystać ze wszystkich możliwości tego rozwiązania, ale nie oczekiwać kwestii nieosiągalnych.

Przede wszystkim należy podkreślić, że każda z wielu różnych wyszukiwarek może inaczej interpretować składnię poleceń z pliku robot.txt, a nawet w niektórych przypadkach zupełnie jej nie wziąć pod uwagę! Roboty największych wyszukiwarek raczej są pod tym kątem spójne i jednakowo realizują treść poleceń, ale mniejsze wyszukiwarki i systemy już niekoniecznie.

W wielu przypadkach może okazać się, że instrukcja w robots.txt zostanie zupełnie inaczej zinterpretowana przez różne roboty, co wpływa na ostateczny wynik zaindeksowanych treści. To sprawia, że dane, które szczególnie chcemy ukryć przed indeksowaniem w jakichkolwiek wyszukiwarkach treści, należy dodatkowo zabezpieczać – na przykład hasłem.

Istotną kwestią jest również problem z jednoczesnym wykorzystaniem wielu poleceń odpowiedzialnych za regulację kwestii związanych z indeksowaniem treści. To sposób, który niekiedy jest próbą wpłynięcia na różnego typu roboty. Niestety czasami okazuje się, że zamieszczone instrukcje wzajemnie się wykluczają i plik robots.txt nie spełnia swojego zadania.

Jeśli wykorzystujemy dyrektywy w robots.txt do stron, które dostępne są w internecie, to niekoniecznie mogą zostać spełnione wszystkie wymagania. Warto pamiętać, że zablokowanie indeksowania strony poprzez plik robots.txt okaże się nieskuteczne w momencie, gdy dany adres dostępny jest w innym miejscu internetu, czyli prowadzą do niego zewnętrzne linki. W takiej sytuacji adres podstrony oraz podstawowe informacje mogą zostać odczytane i zaindeksowane przez wyszukiwarkę.

Jak stworzyć plik robots.txt?

Tak naprawdę do stworzenia pliku robots.txt wystarczy najprostszy edytor tekstowy dostępny na każdym komputerze – notatnik. Do wgrania pliku na serwer również nie są wymagane skomplikowane narzędzia – konieczny jest jedynie dostęp do głównego katalogu serwera FTP, na którym znajdują się pliki strony.

Jeśli Twoja strona została zbudowana na zewnętrznym systemie CMS lub Ecommerce, możliwa jest sytuacja, w której plik robots.txt został utworzony automatycznie. Musisz to zweryfikować i ewentualnie edytować powstały dokument, ponieważ na serwerze może znajdować się wyłącznie jeden plik o nazwie robots.txt – inne nazewnictwo sprawi, że roboty na pewno zignorują zawarte w nim polecenia.
Instrukcje dla robotów są stosunkowo proste i tak naprawdę opierają się o kilka podstawowych poleceń:

  • „User-agent” – określa, do którego bota odnoszą się zamieszczone niżej instrukcje. W celu zamieszczenia polecenia odnoszącego się do wszystkich botów należy wpisać gwiazdkę – „*” zamiast nazwy.
  • „Disallow” – informuje boty, które elementy strony powinny zostać zignorowane i pominięte podczas indeksacji.
  • „Allow” – jest to domyślny tryb dla całej witryny i nie trzeba go stosować. Wykorzystuje się go do udostępnienia np. folderu podrzędnego w folderze wykluczonym za pomocą polecenia „Disallow” – wtedy robot ma dostęp tylko do tego konkretnego wycinka pamięci.

Szczegółowych informacje o składni, wymogach i możliwościach należy szukać w dokumentacji publikowanej przez konkretną wyszukiwarkę – na przykład Google.

Sprawdzanie poprawności pliku robots.txt.

W celu sprawdzenia poprawności instrukcji zawartych w pliku robots.txt warto skorzystać z dostępnych w sieci narzędzi. Między innymi Google Search Console udostępnia skuteczny tester, który pozwala na weryfikację pliku. Dzięki temu każdy ma możliwość przetestowania działania robots.txt pod względem poprawności działania, ewentualnych literówek oraz innych problemów.

Zobacz również
Larry Page – kim jest twórca przeglądarki Google?
Larry Page – kim jest twórca przeglądarki Google?
Anna Ogorzałek / 25.08.2020

Każdy doskonale zna przeglądarkę Google, ale nie każdy wie, kto jest jej twórcą. To skromny i niepozorny student z...

Jak pisać skuteczne teksty SEO?
Jak pisać skuteczne teksty SEO?
Anna Ogorzałek / 15.07.2020

Zanim przejdziemy do szczegółowego omówienia tematu, warto zastanowić się and tym, jaką funkcję pełnią teksty SEO i jakie są...

Brakujące wartości x-default i hreflang / czym są, co warto wiedzieć
Brakujące wartości x-default i hreflang / czym są, co warto wiedzieć
Marcin Caban / 11.07.2020

Brakujące wartości x-default: Nie ma obowiązku stosowania „x-default”, jest to jednak zalecane ze względu na korzyści,jakie przynosi podczas pozycjonowania...

Audyt strony internetowej – czym jest? W jaki sposób się go przeprowadza?
Audyt strony internetowej – czym jest? W jaki sposób się go przeprowadza?
Piotr Antoszek CEO IcomSEO / 10.07.2020

Jest to zestaw czynności podejmowanych w związku z pozycjonowaniem strony. Jego zadaniem jest znalezienie wszystkich nieprawidłowości w jej działaniu,...

W jaki sposób pozyskać obserwujących na Instagramie?
W jaki sposób pozyskać obserwujących na Instagramie?
Anna Ogorzałek / 24.06.2020

Wielu użytkowników Instagrama zadaje sobie to samo pytanie: Co zrobić, by zdobyć nowych obserwujących i wyróżnić się spośród innych...

Dla kogo jest certyfikat SSL? czy wpływa na SEO?
Dla kogo jest certyfikat SSL? czy wpływa na SEO?
Marcin Caban / 06.06.2020

Bezpieczeństwo danych i informacji w internecie jest obecnie jedną z najważniejszych kwestii, o którą zabiegają przeglądarki, wyszukiwarki, ale również...

Czy hosting ma wpływ na SEO?
Czy hosting ma wpływ na SEO?
Marcin Caban / 23.05.2020

Hosting to nieodłączny element strony internetowej. Tylko dzięki niemu witryna może być widoczna w sieci. Usługa hostingowa polega na...

Marketing internetowy, czyli skuteczna reklama w dobie koronawirusa
Marketing internetowy, czyli skuteczna reklama w dobie koronawirusa
Anna Ogorzałek / 17.05.2020

Nikt zapewne nie spodziewał się pandemii koronawirusa, snując plany i stawiając sobie cele na 2020 rok. Zaskoczyła niespodziewanie każdego,...

Content marketing, dlaczego warto?
Content marketing, dlaczego warto?
Anna Ogorzałek / 25.03.2020

Content marketing to bardzo popularna nazwa, z którą zapewne nie raz się spotkałeś. Nic dziwnego, bowiem aktualnie jest najważniejszym...

Co to jest współczynnik odrzuceń?
Co to jest współczynnik odrzuceń?
Łukasz Grzesik / 22.03.2020

Czy współczynnik odrzuceń jest taki straszny? Po czym poznać, że ludzie czytają? Na początek pewne rozróżnienia… między współczynnikiem wyjść a...

Indeksowanie i najczęstsze błędy znajdowane przez wyszukiwarkę
Indeksowanie i najczęstsze błędy znajdowane przez wyszukiwarkę
Marcin Caban / 21.03.2020

Zapraszamy do lektury artykułu na temat najczęstszych błędów znajdowanych przez wyszukiwarkę w czasie indeksowania stron.

Wpływ RankBrain na SEO i marketing cyfrowy
Wpływ RankBrain na SEO i marketing cyfrowy
Łukasz Grzesik / 21.03.2020

RankBrain to algorytm wyszukiwarki oparty na uczeniu maszynowym (nauki zajmującej się sztuczną inteligencją). Jego użycie zostało potwierdzone przez Google...

Kampanie reklamowe na Instagramie
Kampanie reklamowe na Instagramie
Anna Ogorzałek / 17.03.2020

Chcesz wypromować swoją markę lub firmę w Internecie? Powinieneś sięgnąć po jedno z najskuteczniejszych narzędzi marketingowych – Instagram. To...

Jak prowadzić Instagram firmowy
Jak prowadzić Instagram firmowy
Anna Ogorzałek / 17.03.2020

Instagram to portal społecznościowy, który z roku na rok cieszy się coraz większa popularnością w Polsce. Choć niedoceniany, jest...

Pozycjonowanie na frazy precyzyjne, zalety i wady
Pozycjonowanie na frazy precyzyjne, zalety i wady
Arkadiusz Urbaś / 14.03.2020

Jeszcze do niedawna prace mające na celu pozycjonowanie stron wyglądały zupełnie inaczej niż teraz. Wprowadzane przez Google kolejne algorytmy...

Czym jest Google Search Console?
Czym jest Google Search Console?
Marcin Caban / 14.03.2020

Google Search Console jest niezwykle rozbudowanym i potężnym narzędziem dostarczanym bezpośrednio od Google. Pozwala na wszechstronne monitorowanie witryn internetowych...

Shadowban na Instagramie jak się go pozbyć?
Shadowban na Instagramie jak się go pozbyć?
Anna Ogorzałek / 14.03.2020

Pewnie każdy z Was nie raz spotkał się z określeniem shadowban. Nic dziwnego, bowiem jest to słowo bardzo często...

Czytelna strona internetowa, też wpływa na SEO
Czytelna strona internetowa, też wpływa na SEO
Arkadiusz Urbaś / 12.03.2020

Wiele firm zaczyna zwracać coraz większą uwagę na to, aby ich wizerunek oraz reklamy były dopracowane i spójne. W...

Czy warto reklamować się na FaceBooku i czy wpływa to na SEO?
Czy warto reklamować się na FaceBooku i czy wpływa to na SEO?
Anna Ogorzałek / 10.03.2020

Mający aż dwa miliardy aktywnych użytkowników Facebook to obecnie najpopularniejszy portal społecznościowy na świecie. Może być przeglądany zarówno na...

Dlaczego warto prowadzić Twitter firmowy?
Dlaczego warto prowadzić Twitter firmowy?
Anna Ogorzałek / 08.03.2020

Twitter to obok Instagrama i Facebooka jedno z największych mediów społecznościowych na świecie. Założyli go w 2006 roku trzej...

Jak pozycjonować konto na Instagramie?
Jak pozycjonować konto na Instagramie?
Anna Ogorzałek / 03.03.2020

Z pozycjonowaniem zazwyczaj kojarzą się strony internetowe. Niewiele osób wie, że pozycjonować można również profile w Social Mediach np....

Na czym polega usługa pozycjonowania zagranicznego znana też pod nazwą SEO globalne?
Na czym polega usługa pozycjonowania zagranicznego znana też pod nazwą SEO globalne?
Łukasz Grzesik / 03.03.2020

Pozycjonowanie zagraniczne to oferta dla tych właścicieli firm, którzy planują wyjście ze swoim biznesem poza granice Polski, jako główne...

Jak dobrać słowa kluczowe do pozycjonowania strony internetowej ?
Jak dobrać słowa kluczowe do pozycjonowania strony internetowej ?
Arkadiusz Urbaś / 27.02.2020

Dobór odpowiednich słów kluczowych do strony www to zasadnicze działanie dla jej pozycjonowania. Jeśli nie dokonamy wcześniejszej analizy, może...

SERP – co to jest?
SERP – co to jest?
Marcin Caban / 25.02.2020

SERP to skrót stworzony z pierwszych liter angielskiego hasła Search Engine Results Position, co w tłumaczeniu oznacza pozycje wyników...

Broken link checker WordPress – jak znaleźć i usunąć niedziałające linki w WordPressie
Broken link checker WordPress – jak znaleźć i usunąć niedziałające linki w WordPressie
Marcin Caban / 17.02.2020

Wtyczka Broken Link Checker jest jednym z podstawowych narzędzi wykorzystywanych podczas audytu i optymalizacji strony w aspekcie SEO. To...

Najważniejsze trendy w SEO w 2020 roku PLT i CBR
Najważniejsze trendy w SEO w 2020 roku PLT i CBR
Marcin Caban / 09.02.2020

„Jedyną stałą rzeczą w życiu jest zmiana” – te słowa Heraklita z Efezu doskonale wpisują się w to, jak...

Optymalizacji zdjęć WordPress – co warto wiedzieć?
Optymalizacji zdjęć WordPress – co warto wiedzieć?
Marcin Caban / 30.01.2020

Optymalizacja to bez wątpienia jeden z najczęściej pojawiających się terminów na naszym blogu. Nic w tym dziwnego – w...

Instagram vs SEO – jak wykorzystać potencjał Instagrama w SEO?
Instagram vs SEO – jak wykorzystać potencjał Instagrama w SEO?
Anna Ogorzałek / 28.01.2020

Instagram to obok Facebooka i Twittera jeden z najpopularniejszych portali społecznościowych, który z roku na rok cieszy się coraz...

Lazy load dla WordPress
Lazy load dla WordPress
Marcin Caban / 27.01.2020

Obecnie internet towarzyszy nam niemalże w każdej minucie życia. Nieustannie jesteśmy podłączeni do sieci, każdego dnia odwiedzamy różne strony...

Czym są atrybuty linków – dofollow i nofollow
Czym są atrybuty linków – dofollow i nofollow
Marcin Caban / 12.01.2020

Zdobywanie linków – czy potrzebne? Każdy, kto choć półsłówkiem słyszał o SEO i pozycjonowaniu stron internetowych, z pewnością wie,...

Audyt SEO TF-IDF, co należy zbadać? jak budować treści?
Audyt SEO TF-IDF, co należy zbadać? jak budować treści?
Łukasz Grzesik / 08.01.2020

Badanie TF-IDF to zaawansowana ocena podobieństwa treści. Porównywane są różne elementy SEO optymalizacji waszej strony i stron konkurencji, znajdujących...

Yoast SEO możliwości – na co pozwala
Yoast SEO możliwości – na co pozwala
Marcin Caban / 02.01.2020

Yoast SEO to wtyczka dedykowana najpopularniejszemu systemowi CMS na świecie – WordPressowi. Co ciekawe, to jednocześnie najpopularniejsze narzędzie wspomagające...

GoogleBot – co to takiego?
GoogleBot – co to takiego?
Marcin Caban / 29.12.2019

GoogleBot jest uniwersalną nazwą dla głównych robotów indeksujących strony wysyłanych przez wyszukiwarkę Google. Istnieją także inne roboty Google, które...

Jak tworzyć atrakcyjne opisy produktów do sklepów internetowych?
Jak tworzyć atrakcyjne opisy produktów do sklepów internetowych?
Anna Ogorzałek / 22.11.2019

Dane Bisnode, pioniera w analizie danych, jednoznacznie wskazują, że Polacy uwielbiają robić zakupy w sklepach internetowych, dlatego perspektywy dla...

Główne korzyści pozycjonowania
Główne korzyści pozycjonowania
Piotr Antoszek CEO IcomSEO / 28.10.2019

Pozycjonowanie to zbiór określonych technik i procesów pozwalających osiągnąć danej witrynie wysokie pozycje w wynikach wyszukiwania. To z kolei...