Jak sprawdzić błędy indeksowania

dowiedz się

Jeśli ruch organiczny spada, a nowe podstrony długo nie pojawiają się w wynikach, problem często tkwi w tym, jak roboty wyszukiwarek widzą i zapisują Twoje strony. Ten przewodnik pomoże Ci krok po kroku sprawdzić, gdzie powstają błędy oraz jak je potwierdzić w danych. Przejdziesz od szybkiej diagnozy, przez użycie narzędzi, po techniczną analizę i plan napraw. Celem jest wykrycie, czy kłopot dotyczy wykrywalności, renderowania, dostępności lub jakości treści.

Przygotowanie i szybka diagnoza problemu

Ustal, co dokładnie chcesz sprawdzić

Zacznij od zdefiniowania zakresu: konkretna podstrona, sekcja witryny (np. blog), czy cały serwis. Zbierz przykłady adresów URL, które Twoim zdaniem powinny być w wyszukiwarce, a ich nie ma. Dobrze jest mieć listę 10–50 adresów o różnych typach (kategorie, produkty, wpisy), aby porównać wzorce błędów i ocenić, czy problem ma charakter jednostkowy, czy systemowy.

Szybkie testy widoczności

  • Użyj operatora site: w Google (np. site:twojadomena.pl) i porównaj liczbę zwróconych adresów z realną liczbą stron. Duża rozbieżność bywa pierwszym sygnałem ograniczonej widoczności.
  • Sprawdź wybrane adresy w wyszukiwarce z operatorem inurl: lub intitle:, aby ocenić, czy trafiają do indeksu pod zmienionymi tytułami lub parametrami.
  • Porównaj ruch organiczny dzień do dnia i rok do roku w narzędziu analitycznym – jeśli spadek koreluje z wdrożeniami lub awarią serwera, kieruj diagnozę w stronę problemów technicznych.

Wyjaśnienie pojęć (w skrócie)

  • indeksowanie – zapisanie strony w bazie wyszukiwarki, aby mogła pojawić się w wynikach.
  • crawling – odwiedzanie i pobieranie treści przez roboty; warunek wstępny dla indeksacji.
  • robots.txt – plik kontrolujący dostęp robotów do sekcji witryny.
  • noindex – dyrektywa wykluczająca stronę z indeksu, umieszczana w meta tagach lub nagłówkach.
  • sitemap – mapa adresów URL dla robotów, ułatwiająca znalezienie i aktualizację treści.
  • Tag kanoniczny – wskazuje preferowaną wersję strony przy duplikacji.
  • przekierowania – mechanizmy zmiany lokalizacji URL (301/302) wpływające na indeksację i sygnały.
  • Kody 404 i 5xx – błędy klienta i serwera, które przerywają indeksację.
  • logi – zapisy żądań do serwera, pozwalające śledzić zachowanie robotów.

Przygotuj dostęp i dane wejściowe

  • Dostęp do Google Search Console (wszystkie prefiksy domeny: http i https, z www i bez).
  • Lista kluczowych adresów URL (np. eksport z CMS lub z mapy witryny), by sprawdzać indeksację hurtowo.
  • Dostęp do serwera/hostingu: nagłówki, pliki konfiguracyjne, plik robots.txt i mapy XML.
  • Historia wdrożeń (changelog), aby łączyć błędy z konkretnymi zmianami.

Sprawdzanie błędów w Google Search Console

Zweryfikuj własność i wybierz właściwą usługę

W GSC dodaj usługę typu domena (poleca się), aby objąć wszystkie protokoły i subdomeny. Jeśli to niemożliwe, dodaj cztery usługi URL-prefix: http://, https://, z www i bez. Upewnij się, że masz poziom dostępu pozwalający przeglądać raporty Indeksowanie i przesyłać mapy witryny.

Raport Indeksowanie → Strony: statusy i segmentacja

Przejdź do sekcji Indeksowanie → Strony. Ten raport pokazuje, które adresy są zaindeksowane i dlaczego inne nie są. Przełączaj się między „Wszystkie znane strony” a „Strony przesłane” (tylko z mapy witryny), aby zobaczyć różnicę między tym, co Google znalazł sam, a tym, co mu dostarczyłeś.

  • Crawled – currently not indexed / Przeskanowano – obecnie nie zindeksowano: treść została pobrana, ale nie dodana do indeksu. Częste powody: zbyt niska wartość, duplikacja, cienka treść, problemy jakościowe.
  • Discovered – currently not indexed / Odkryto – obecnie nie zindeksowano: Google zna adres, ale go nie pobrał (zazwyczaj budżet lub priorytetyzacja, czasem blokada zasobów).
  • Excluded by ‘noindex’: meta lub nagłówek X-Robots-Tag wyklucza stronę z indeksu.
  • Blocked by robots.txt: plik robots.txt blokuje pobieranie – pamiętaj, blokada crawlowania uniemożliwia też odczyt meta-znaczników.
  • Soft 404: strona wygląda jak błąd (np. pusta kategoria) mimo statusu 200.
  • Alternate page with proper canonical: Google wybrał inny adres jako kanoniczny – to nie zawsze błąd, ale trzeba potwierdzić, czy wybór jest zgodny z intencją.
  • Duplicate without user-selected canonical: duplikaty bez wskazania kanonicznego – rozważ ustawienie rel=canonical.
  • Redirect error / Błąd przekierowania: pętle, łańcuchy lub konflikty statusów.
  • Server error (5xx) i Not found (404): awarie i brak zasobów.

Analizuj raport z filtrami: segmentuj według typu szablonu (np. /blog/, /produkt/) poprzez dodanie filtra URL zawiera. To pomoże powiązać problemy z konkretnym modułem w CMS lub plikiem szablonu.

Inspekcja adresu URL: test na żywo i indeksacja na żądanie

W pasku u góry użyj Inspekcji adresu URL. Wklej podejrzany adres i sprawdź:

  • Czy adres jest w indeksie i jaka wersja kanoniczna została wybrana przez Google.
  • Czy strona jest umożliwiona do indeksowania (meta robots, nagłówki, robots.txt).
  • Renderowanie: zobacz, czy ważne treści są w HTML zrenderowanym. Jeśli kluczowe bloki pojawiają się dopiero po JS, a roboty mają utrudnione renderowanie, rozważ SSR/rehydratację.
  • Stan pobierania i ostatnie zindeksowanie – czy Google wraca na stronę.

Użyj „Testuj adres URL na żywo”, aby pominąć cache i sprawdzić aktualny stan. Jeżeli już naprawiłeś problem, skorzystaj z „Poproś o zaindeksowanie”, ale pamiętaj, że to sygnał, a nie gwarancja.

Mapy witryny: przesyłanie, walidacja i pokrycie

Wejdź w Indeksowanie → Mapy witryn. Sprawdź, czy pliki są dostępne, poprawnie sformatowane i aktualizują się po zmianach. Zadbaj o:

  • Struktury: używaj indeksu map (sitemap_index.xml) przy dużych serwisach, dzieląc mapy na logiczne sekcje (np. produkty, kategorie, blog).
  • Sygnatury czasowe lastmod: aktualizuj datę modyfikacji przy treściach rzeczywiście zmienionych; to pomaga priorytetyzować crawl.
  • Brak adresów z 3xx, 4xx, 5xx – mapa powinna zawierać wyłącznie strony docelowe 200.
  • Spójność protokołu i hosta: nie mieszaj http/https ani www/bez-www.

Analiza techniczna poza GSC

Sprawdź plik robots.txt i jego zachowanie

Wejdź pod /robots.txt i upewnij się, że nie blokujesz kluczowych sekcji. Typowe pułapki:

  • Globalne Disallow: / dla User-agent: * pozostawione po testach zmian – odcina crawl całej witryny.
  • Blokady dla /wp-admin/ lub folderów systemowych, które przypadkiem obejmują zasoby krytyczne (np. pliki JS/CSS), utrudniając renderowanie.
  • Różnice między środowiskami (dev/stage/produkcja) – pamiętaj o dyrektywie i o tym, że roboty mogą zaciągać cache robots.txt; po zmianach sprawdź odpowiedź nagłówków, TTL i odświeżenie.

Jeżeli używasz wielu subdomen, każda ma własny plik robots.txt (np. cdn.twojadomena.pl/robots.txt). Upewnij się, że zasoby z innych hostów nie są blokowane, jeżeli są krytyczne dla renderu.

Nagłówki HTTP, meta robots i X-Robots-Tag

Za pomocą curl lub przeglądarkowych narzędzi deweloperskich sprawdź:

  • Status HTTP (200, 301/302, 404, 410, 500+) i łańcuchy przekierowań. Długie łańcuchy obniżają skuteczność crawlu i mogą powodować błędy.
  • Meta robots i X-Robots-Tag w odpowiedzi – szukaj dyrektyw noindex, nofollow, noarchive, nosnippet, które mogą ograniczać ekspozycję.
  • Rel=canonical: czy wskazuje na siebie (self-referential) tam, gdzie powinna, i czy nie odsyła do innej domeny bez powodu.
  • Vary: User-Agent i Content-Type – istotne przy dynamicznym serwowaniu treści.

Analiza logów serwera i budżet crawlu

Eksportuj logi HTTP i przeanalizuj żądania od Googlebot (i innych botów). Odpowiedz na pytania:

  • Jak często robot odwiedza kluczowe sekcje i które kody zwrotne widzi najczęściej?
  • Czy są pętle przekierowań, czasochłonne odpowiedzi, lub nadmierna liczba 404, które marnują budżet?
  • Czy roboty trafiają na parametryzowane strony, które generują niemal nieskończone kombinacje (filtry, sortowania)? Rozważ reguły canonical, noindex lub ograniczenia parametrów.

W dużych serwisach raportuj rozkład statusów i średni TTFB dla Googlebota. Wysokie opóźnienia korelują z obniżeniem tempa crawlu.

Linkowanie wewnętrzne, sieroty i struktura informacji

Przeskanuj witrynę crawlerem SEO i sprawdź:

  • Strony sieroty (orphan pages) – znane, lecz bez linków wewnętrznych. Dostarcz linki z nawigacji lub spisów treści.
  • Głębokość kliknięć (click depth) – ważne strony powinny być osiągalne w 1–3 kliknięciach z home.
  • Anchor text i kontekst – pomóż botom zrozumieć tematykę i relacje między treściami.

Ręczne testy renderowania i mobilności

  • Tryb mobilny: Google stosuje mobile-first indexing. Sprawdź, czy wersja mobilna serwuje tę samą treść, meta tagi i linki co desktop.
  • Render: użyj narzędzi developerskich, by zobaczyć, czy po wyłączeniu JS wciąż widać kluczową treść. Jeśli nie, rozważ prerendering/SSR.
  • Szybkość: bardzo długi TTFB i wolne zasoby mogą powodować time-outy i błędy indeksacji.

Interpretacja i naprawa typowych błędów

Soft 404, 404 i błędy ścieżek

  • Soft 404: strona zwraca 200, ale treść jest pusta/„nie znaleziono”. Rozwiązanie: zwracaj 404/410 dla nieistniejących zasobów lub uzupełnij stronę o wartościową treść, jeśli to kategoria/listing.
  • Prawdziwe 404: naturalne przy wygaszonych produktach, ale nie linkuj do nich wewnętrznie i nie umieszczaj w mapach. Dla popularnych adresów rozważ 301 do najbliższej kategorii, jeśli to sensowne.
  • Łańcuchy przekierowań: skróć do jednego skoku 301. Unikaj połączeń 302 w stałych trasach.

„Crawled/Discovered – currently not indexed” i cienka treść

Jeżeli Google zna stronę, ale jej nie indeksuje, skup się na jakości i sygnałach ważności:

  • Wzmocnij linkowanie wewnętrzne do tej podstrony z kontekstowych miejsc o wysokiej widoczności.
  • Rozszerz treść: unikalne opisy, dane strukturalne, odpowiedzi na intencję użytkownika, elementy E-E-A-T (autor, źródła, doświadczenie).
  • Usuń duplikaty parametrów, filtry i słabe warianty – scal je kanonicznie lub blokuj indeksację, zostawiając jedną mocną wersję.
  • Zapewnij zgodność tytułu, H1 i treści z zapytaniami. Uważaj na nadoptymalizację.

Duplikacja i wybór wersji kanonicznej

  • Ustal reguły: jeden adres docelowy dla treści (bez parametrów, z właściwym protokołem i hostem).
  • W rel=canonical wskaż stronę preferowaną; pamiętaj o spójności sygnałów (canonical, linki wewnętrzne, mapy witryny, przekierowania).
  • W wariantach sortowania i filtrów zastosuj noindex, follow lub canonical do wersji bazowej, w zależności od wartości tych stron.
  • Dla paginacji: rozważ logiczne powiązania i linkowanie między stronami, a główną kategorią.

Blokady: robots, noindex i nagłówki

  • Jeśli chcesz wyłączyć stronę z indeksu, użyj noindex (meta lub X-Robots-Tag). Nie blokuj jej w robots.txt, bo wtedy robot może nie odczytać dyrektywy noindex.
  • Jeśli chcesz ograniczyć crawl (np. parametry), robots.txt jest właściwym miejscem, ale pamiętaj o konsekwencjach dla renderowania.
  • Sprawdź, czy środowiska testowe nie przeciekły do indeksu; zastosuj mechanizmy uwierzytelniania lub noindex + blokadę w regułach serwera.

Błędy serwera i stabilność

  • 5xx i timeouty: zweryfikuj wydajność aplikacji, baz danych i cache. Rozważ CDN, optymalizację zapytań i skalowanie poziome/pionowe.
  • Ochrona przed botami: zbyt agresywne WAF/Rate Limit może odcinać Googlebota. Dodaj wyjątki dla user-agentów i IP Google.
  • Headless/dynamic rendering: upewnij się, że serwer nie serwuje pustych stanów dla botów (Sprawdź user-agent i wersję mobilną).

Mapy witryny: higiena i priorytety

  • Publikuj tylko adresy 200, kanoniczne i indeksowalne. Usuń nieaktualne URL-e po 301/410.
  • Aktualizuj lastmod zgodnie z realnymi zmianami; nie manipuluj datą bez powodu.
  • Rozbij ogromne mapy (limity: 50 tys. adresów lub 50 MB nieskompresowane). Utrzymuj spójny schemat nazewnictwa, by łatwo monitorować błędy.
  • Weryfikuj mapy po wdrożeniach – nawet drobny błąd składni unieruchomi przetwarzanie.

Dane strukturalne i fragmenty rozszerzone

Choć mikroformaty nie gwarantują indeksacji, poprawne schema.org pomaga zrozumieć typ treści i może zwiększyć priorytet. Waliduj w narzędziu do testowania wyników z elementami rozszerzonymi, eliminując ostrzeżenia i błędy.

Problemy z JavaScriptem i renderowaniem

  • Zadbaj o SSR lub pre-render kluczowych elementów: tytuł, opis, treść główna, linki wewnętrzne, meta robots i canonical w HTML initial.
  • Nie opieraj krytycznych linków na eventach JS; robot może ich nie wykonać.
  • Minimalizuj blokujące zasoby i opóźnienia – długi TTFB i ciężkie bundle JS obniżają skuteczność pobierania.

Hreflang, wielojęzyczność i regiony

  • Wprowadzaj dwukierunkowe adnotacje hreflang między wariantami językowymi.
  • Wersja x-default dla stron wyboru języka.
  • Upewnij się, że canonical nie wskazuje na inny język; canonical powinien być wewnątrz tej samej wersji.

Kontrola jakości treści i sygnały ważności

  • Eliminuj thin content: krótkie, powtarzalne teksty, puste kategorie; łącz podobne strony.
  • Wzmacniaj E-E-A-T: autorstwo, referencje, polityki, kontakt, opinie użytkowników.
  • Aktualizuj stare treści i odśwież lastmod oraz mapy witryny po realnych zmianach.

Proces napraw i monitorowanie

  • Priorytety: najpierw błędy 5xx, pętle przekierowań, globalne blokady robots i noindex.
  • Potem jakość: duplikacje, cienkie treści, brakujące linkowanie wewnętrzne.
  • Na końcu optymalizacje: wydajność, porządkowanie parametrów, porządek w mapach.
  • Po wdrożeniach: Inspekcja URL i „Poproś o zaindeksowanie” dla reprezentantów grup, a następnie monitoruj raport „Strony”.
  • Raportuj tygodniowo: liczba zindeksowanych, liczba błędów, TTFB dla Googlebota, status map witryn.

Kontrola krzyżowa z innymi narzędziami

  • Bing Webmaster Tools: raporty pokrewne do GSC, dodatkowe spojrzenie na indeksację.
  • Crawlers SEO: wykryją pętle, kanonikalizację, meta tagi i hierarchię linków.
  • Monitoring uptime i odpowiedzi HTTP: powiadomienia o 5xx, skokach TTFB i zmianach DNS/SSL.

Checklist – czego szukać przy każdym adresie

  • Status HTTP: 200/301 (unikaj 302 dla docelowych URL-i).
  • Meta robots/noindex i X-Robots-Tag: brak niepożądanych blokad.
  • Rel=canonical: spójny z mapą i z linkami wewnętrznymi.
  • robots.txt: brak blokady dla ścieżki.
  • Render: tekst główny obecny w HTML initial lub dostępny po renderze dla bota.
  • Linki wewnętrzne: przynajmniej kilka kontekstowych wejść do strony.
  • Mapa witryny: adres tam jest, jeśli to strona, którą chcesz pozycjonować.
  • Wydajność: rozsądny TTFB i brak błędów zasobów krytycznych.

Przykładowa procedura krok po kroku dla całej sekcji

  1. Wyeksportuj listę URL-i sekcji (np. /blog/). Usuń parametry i duplikaty.
  2. Sprawdź ich status w GSC (Strony → filtr ścieżki). Zanotuj rozkład statusów.
  3. Przeskanuj sekcję crawlerem: statusy, meta, canonical, głębokość kliknięć.
  4. Zweryfikuj robots.txt i reguły serwera (nagłówki, X-Robots-Tag).
  5. Oceń jakość treści i wewnętrzne linkowanie. Zaplanuj wzmocnienia.
  6. Wdróż poprawki: przekierowania, canonicale, noindex dla słabych wariantów, uzupełnienia treści.
  7. Zaktualizuj mapy witryny i poproś o indeksację reprezentatywnych URL-i.
  8. Monitoruj raport „Strony” przez 2–4 tygodnie i powtarzaj dla kolejnych grup.

Częste pułapki, o których łatwo zapomnieć

  • Pozostawiony noindex po migracji lub testach A/B.
  • Canonicale wskazujące na stronicowanie lub na inną domenę przez błąd szablonu.
  • Linki wewnętrzne prowadzące do starych adresów po refaktorze URL-i.
  • Mapy witryny generowane przez wiele wtyczek jednocześnie (konflikty, duplikaty).
  • Parametry UTM w linkach wewnętrznych – tworzą duplikaty i marnują crawl.
  • Blokowanie folderu z plikami JS/CSS potrzebnymi do renderu.
  • Brak alt i lazy-load bez noscript dla kluczowych elementów treści.

Kiedy eskalować i włączyć programistów/hosting

  • Stałe 5xx pod obciążeniem, skoki TTFB, błędy TLS/SSL.
  • Problemy z rozwiązywaniem DNS, zmiany IP i błędy sieciowe.
  • Nieprzewidywalne różnice między wersją mobilną i desktopową serwowane warunkowo.
  • Potrzeba SSR/prerenderingu dla kluczowych sekcji (frameworki JS).

Wytyczne operacyjne

  • Dokumentuj każdą zmianę: data, zakres, metryki bazowe.
  • Oddziel środowiska (dev/stage/prod) i stosuj zabezpieczenia przed indeksacją na testach.
  • Ustal cykl przeglądu: tygodniowy skan sekcji krytycznych i comiesięczny przegląd pełny.
  • Utrzymuj jedną, oficjalną mapę indeksową i kontroluj generatory w CMS.
< Powrót

Zapisz się do newslettera


Zadzwoń Napisz