Ukrywanie podstron przed indeksacją – powody, metody i skuteczne porady
- 11 minut czytania
- Rodzaje podstron, które należy wykluczyć:
- Strony z danymi prywatnymi
- Strony logowania
- Strony thank you
- Wersje do druku lub strony do odczytu
- Podobne strony produktów
- Wyniki wyszukiwania wewnętrznego
- Strony formularzy subskrypcji
- Strony w przygotowaniu
- Strony lustrzane
- Oferty specjalne i strony reklamowe
- Jak ukryć stronę przed wyszukiwaniem?
- Ograniczanie crawlingu za pomocą plików robots.txt
- Tworzenie pliku robots.txt
- Najczęściej popełniane błędy
- Ograniczanie indeksowania za pomocą metatagu robots i tagu X-Robots
- Metatag noindex robotów
- Tag X-Robots
- Tag Robots noindex vs. X-Robots-Tag
- Najczęściej popełniane błędy
- Wyjątki i działania niestandardowe
Indeksacja podstron niepodważalnie stanowi najważniejszy punkt każdego procesu optymalizacji. Zezwolenie robotom wyszukiwarek na dostęp do treści oznacza, że są one w pełni gotowe, nie posiadają żadnych problemów technicznych i mogą zostać dodane do wyników SERP. Chociaż pełna indeksacja witryny pozornie wydaje się kusząca, istnieją pewne rodzaje podstron, których obecność w SERP powinna być ograniczona, tak aby nie miały negatywnego wpływu na pozycję w rankingu. Oznacza to, że muszą zostać ukryte i wykluczone z indeksowania.
Rodzaje podstron, które należy wykluczyć:
Do podstron, które warto ukryć przed indeksowaniem należą:
Strony z danymi prywatnymi
Są to strony zawierające poufne dane firmy, informacje o produktach lub o profilach użytkowników, prywatną korespondencję, dane dotyczące płatności itp. Potrzeba ich ukrycia wynika głównie z faktu, że treści o charakterze prywatnym muszą być ukryte przed wszystkimi z wyjątkiem ich właścicieli, Google (ani jakakolwiek inna wyszukiwarka) nie może mieć do nich dostępu, tak by nie zostały udostępnione szerszemu gronu odbiorców.
Strony logowania
W przypadku umieszczenia formularza logowania nie na stronie głównej, ale na osobnej podstronie, nie ma potrzeby jej dodatkowego indeksowania w SERP. Takie strony nie niosą ze sobą żadnej wartości dla użytkowników.
Strony thank you
Są to strony, które użytkownicy widzą po udanej interakcji, na przykład po zakupie czy rejestracji. Strony te zwykle zawierają niewielką ilość treści i nie są zbyt wartościowe dla użytkowników.
Wersje do druku lub strony do odczytu
Treść stron tego typu jest duplikatem treści strony głównej Twojej witryny. Oznacza to, że w przypadku zaindeksowania ich przez roboty wyszukiwarki, zostaną potraktowane jako całkowite duplikaty treści.
Podobne strony produktów
Jest to częsty problem w przypadku dużych witryn e-commerce, które oferują wiele produktów różniących się jedynie rozmiarem lub kolorem. Boty wyszukiwarek często nie są w stanie rozpoznać różnic między nimi, przez co mogą potraktować je jako duplikaty treści.
Wyniki wyszukiwania wewnętrznego
Użytkownicy trafiający na Twoją witrynę z bezpośrednich wyników SERP, oczekują, że po wejściu od razu znajdą odpowiedź na swoje zapytanie. Jeśli jednak Twoje wewnętrzne strony SERP zostaną zaindeksowane, prawdopodobnie będą skutkować jedynie krótkim czasem interakcji i wysokim współczynnikiem odrzuceń.
Strony formularzy subskrypcji
Podobnie jak strony logowania, formularze zwykle zawierają jedynie formatkę umożliwiającą wprowadzenie danych w celu subskrypcji. Strony tego typu nie dostarczają żadnej wartościowej treści użytkownikom i nie powinny być indeksowane.
Strony w przygotowaniu
Strony będące w trakcie opracowania należy trzymać z dala od botów, tak długo aż nie będą w pełni gotowe.
Strony lustrzane
Strony lustrzane to identyczne kopie Twoich stron na oddzielnym serwerze/w innej lokalizacji. W przypadku ich zaindeksowania zostaną uznane za duplikaty techniczne.
Oferty specjalne i strony reklamowe
Oferty specjalne i strony reklamowe mają być widoczne dla użytkowników dopiero po wykonaniu przez nich określonych działań lub przez określony czas. Po zakończeniu promocji, strony te nie są już wartościowe dla użytkowników, dlatego warto ograniczyć dostęp do nich botom.
Jak ukryć stronę przed wyszukiwaniem?
Jak więc ukryć wszystkie wyżej wymienione typy strony przed natrętnymi botami i sprawić, aby reszta witryny była dla nich widoczna? Istnieją dwie możliwości konfiguracji dla przeglądarek: ograniczenie crawlingu lub indeksowania.
Ograniczanie crawlingu za pomocą plików robots.txt
Jednym z najprostszych i najbardziej bezpośrednich sposobów ograniczenia robotom wyszukiwarek dostępu do podstron w witrynie jest stworzenie pliku robots.txt. Plik ten pozwala aktywnie zapobiegać pojawianiu się niechcianych treści w wynikach wyszukiwania. Za jego pomocą możemy ograniczyć dostęp do pojedynczej strony, całego katalogu, a nawet pojedynczego obrazu.
Tworzenie pliku robots.txt
Jest to proces stosunkowo łatwy do wykonania. Wystarczy utworzyć plik .txt zawierający następujące pola:
User-agent: – identyfikator danego robota;
Disallow: – 2 lub więcej linii instruujących roboty, tak aby nie miały dostępu do niektórych części witryny.
Należy jednak pamiętać, że niektóre roboty (na przykład te od Google) obsługują również dodatkowe pole o nazwie Allow:
Jak sama nazwa wskazuje, Allow: pozwala wyświetlić listę plików/folderów, które mogą zostać przeszukane.
Warto również pamiętać, że protokół określony w pliku robots.txt ma charakter wyłącznie doradczy. Nie jest to bezpośrednia blokada na podstronach witryny. Stanowi on jedynie informację dla botów. Plik robots.txt może uniemożliwiać niektórym botom (np. botom Google, Yahoo! i Bing) uzyskanie dostępu do wybranych treści. Niestety w przypadku złośliwych botów nadal występuje szansa na to, że polecenie to zostanie zignorowane. Istnieje zatem ryzyko, że prywatne dane zostaną pobrane, skompilowane i ponownie wykorzystane. Aby treści były w 100% bezpieczne, warto wprowadzić bezpieczniejsze rozwiązania (np. dodanie rejestracji w serwisie, ukrycie treści pod hasłem itp.).
Najczęściej popełniane błędy
Oto najczęstsze błędy popełniane podczas tworzenia plików robots.txt.
- Używanie wielkich liter w nazwie pliku. Nazwa pliku to robots.txt. Nie Robots.txt, czy ROBOTS.txt.
- Brak pliku robots.txt w katalogu głównym.
- Blokowanie całej witryny przez źle sformatowaną instrukcję.
- Błędne określenie user-agent.
- Zawarcie kilku katalogów w jednej linii zakazu. Każda strona lub katalog wymaga oddzielnej linii.
- Pozostawienie pustej linii user-agent.
- Zastosowanie listy wszystkich elementów w katalogu. Jeśli ukrywasz cały katalog, nie trzeba wymieniać w treści pliku każdego pojedynczego elementu.
- Pominięcie linii instrukcji zakazujących.
- Brak mapy witryny na dole pliku robots.txt.
- Dodanie do pliku tagu noindex.
Ograniczanie indeksowania za pomocą metatagu robots i tagu X-Robots
Użycie metatagu robots noindex lub tagu X-Robots umożliwi botom dostęp do witryny, ale zapobiegnie dodaniu jej do indeksu, tj. pojawieniu się w wynikach wyszukiwania.
Metatag noindex robotów
Metatag robots noindex zwykle umieszczany jest w źródle kodu HTML strony (sekcja <head>). Proces tworzenia tych tagów wymaga jednak odrobiny wiedzy technicznej, ale z łatwością może zostać wykonany nawet przez początkującego inżyniera SEO.
Jak to działa?
Bot Google pobierając zawartość podstrony, napotyka metatag noindex i dzięki temu nie uwzględnia jej w indeksie internetowym. Podstrona ta nadal jednak istnieje pod podanym adresem URL, nie pojawia się jednak w wynikach wyszukiwania niezależnie od tego, jak często prowadzą do niej linki z jakiejkolwiek innej strony.
Tag X-Robots
Podstrona może zostać ukryta nie tylko dzięki metatagowi robots noindex, ale także skonfigurowanej odpowiedzi nagłówka HTTP z tagiem X-Robots z wartością noindex lub none.
Oprócz stron i elementów HTM, X-Robots-Tag umożliwia ograniczenie indeksowania oddzielnych plików PDF, filmów, obrazów, a także wszelkich plików innych niż HTML, w których użycie metatagów robots jest niemożliwe.
Jak to działa?
Mechanizm działania jest zbliżony do tagu noindex. Gdy bot wyszukiwarki wejdzie na podstronę, odpowiedź HTTP zwraca X-Robots-Tag z instrukcjami noindex. Strona lub plik nadal są obecne pod wskazanymi adresami, ale nie pojawiają się w wynikach wyszukiwania.
Tag Robots noindex vs. X-Robots-Tag
Chociaż tag robots noindex wydaje się łatwiejszym do wdrożenia rozwiązaniem, w niektórych przypadkach lepsze rozwiązanie stanowi użycie tagu X-Robots-Tag, szczególnie w przypadkach:
- Braku indeksowania całej subdomeny lub kategorii. X-Robots-Tag pozwala na zbiorcze wykonanie tego zadania, co pozwala uniknąć oznaczania każdej strony pojedynczo;
- Braku indeksowania pliku innego niż HTML. W tym przypadku X-Robots-Tag jest jedyną dostępną opcją.
Warto jednak wspomnieć, że wyłącznie boty Google postępują zgodnie z instrukcjami określonymi przez X-Robots-Tag. W przypadku innych wyszukiwarek nie ma gwarancji, że tag ten zostanie poprawnie zinterpretowany. Istnieją także przeglądarki, które w ogóle nie obsługują tagów x-robots. Jeśli więc witryna wyświetlania jest w różnych wyszukiwarkach, we fragmentach HTML należy użyć tagu robots noindex.
Najczęściej popełniane błędy
- Dodanie tagu noindexed do strony znajdującej się w pliku robots.txt. Plik robots.txt ogranicza indeksowanie, dlatego boty wyszukujące nie wejdą na stronę i nie zobaczą dyrektyw noindex. Oznacza to, że Twoja strona może zostać zaindeksowana bez treści i nadal pojawiać się w wynikach wyszukiwania.
- Używanie wielkich liter w dyrektywach tagów. Według wytycznych Google, we wszystkich dyrektywach rozróżniana jest wielkość liter, dlatego należy zachować szczególną ostrożność.
Wyjątki i działania niestandardowe
Warto także zapoznać się z kilkoma niestandardowymi przypadkami, które zasługują na szczególną uwagę.
- Strony, których nie chcemy indeksować, nie powinny być uwzględnione w mapie witryny. Mapa witryny to sposób na poinformowanie robotów wyszukiwarek, gdzie mają się udać w pierwszej kolejności podczas indeksowania witryny.
- Jeśli chcemy zdeindeksować stronę, która jest już obecna w mapie witryny, nie należy usuwać jej z mapy witryny, dopóki nie zostanie ona ponownie zaindeksowana i zdeindeksowana przez roboty wyszukujące. W przeciwnym razie deindeksacja może zająć więcej czasu.
- Strony zawierające dane prywatne powinny być chronione za pomocą haseł. Ochrona hasłem to niezawodny sposób na ukrycie poufnych treści nawet przed botami, które nie postępują zgodnie z instrukcjami w pliku robots.txt. Wyszukiwarki nie mają dostępu do naszych haseł, dlatego nie dostaną się na chronioną podstronę, nie zobaczą poufnych treści i nie przeniosą ich do wyników SERP.
- Aby boty wyszukiwania nie indeksowały strony, ale korzystały ze wszystkich linków znajdujących się na niej i indeksowały ich zawartość, należy skonfigurować następującą dyrektywę:
<meta name=”robots” content=”noindex, follow”>
Jest to powszechna praktyka w przypadku wewnętrznych stron wyników wyszukiwania, które zawierają wiele przydatnych linków, ale same w sobie nie wykazują żadnej wartości.Ograniczenia indeksowania mogą zostać sprecyzowane dla konkretnych robotów. Można na przykład zablokować stronę przed botami informacyjnymi, botami graficznymi itp. Nazwy botów można określić dla dowolnego typu instrukcji, czy to pliku robots.txt, metatagu robots czy X-Robots-Tag.
Przykładowo strony mogą być ukryte przed botem ChataGPT za pomocą pliku robots.txt. Od czasu ogłoszenia wtyczek ChatGPT i GPT-4, właściciele wielu witryn internetowych mają obawy dotyczące nieautoryzowanego wykorzystania ich treści i często blokują te boty.
- Tagu noindex nie należy używać w testach A/B, gdy część użytkowników zostaje przekierowana ze strony A na stronę B. Tak jak w przypadku połączenia noindex z przekierowaniem 301 (stałym), wyszukiwarki otrzymają następujące sygnały:
- Strona A już nie istnieje, ponieważ została trwale przeniesiona na stronę B;
- Strona B nie powinna być indeksowana, ponieważ zawiera tag noindex.
Skutkuje to zniknięciem obu stron z indeksu.
Aby poprawnie skonfigurować test A/B, użyj przekierowania 302 (które jest tymczasowe) zamiast 301. Dzięki temu stara strona pozostanie w indeksie i zostanie przywrócona po zakończeniu testu. Jeśli testowane jest kilka wersji strony (A/B/C/D itp.), należy użyć tagu rel=canonical, aby oznaczyć kanoniczną wersję strony, która powinna trafić do wyników SERP.
- Tag noindex warto wykorzystać, aby ukryć strony tymczasowe. Użycie pliku robots.txt do ukrycia stron ze specjalnymi ofertami, reklamami, promocjami, czy wielu innych, które nie powinny trafić do wyników wyszukiwania, nie zawsze jest dobrym wyborem. Adresy tych strony są nadal dostępne w treści pliku robot.txt. W tym przypadku lepszym rozwiązanie jest użycie tagu noindex, tak aby przypadkiem nie ujawnić poufnego adresu URL.
Tak prezentują się ogólne informacje na temat ukrywania określonych podstron przed botami wyszukiwarek i ich indeksowaniem. W podstawowych założeniach jest to dość łatwy proces. Najważniejszym jego aspektem jest zachowanie porządku i unikanie łączenia kilku rodzajów instrukcji na jednej podstronie. Należy także uważać, by przypadkiem nie ukryć stron, które muszą znaleźć się w wynikach wyszukiwania z uwagi na zawarte w nich treści.