Jak sprawdzić błędy indeksowania

Spis treści

Przygotowanie i szybka diagnoza problemu
Ustal, co dokładnie chcesz sprawdzić
Szybkie testy widoczności
Wyjaśnienie pojęć (w skrócie)
Przygotuj dostęp i dane wejściowe
Sprawdzanie błędów w Google Search Console
Zweryfikuj własność i wybierz właściwą usługę
Raport Indeksowanie → Strony: statusy i segmentacja
Inspekcja adresu URL: test na żywo i indeksacja na żądanie
Mapy witryny: przesyłanie, walidacja i pokrycie
Analiza techniczna poza GSC
Sprawdź plik robots.txt i jego zachowanie
Nagłówki HTTP, meta robots i X-Robots-Tag
Analiza logów serwera i budżet crawlu
Linkowanie wewnętrzne, sieroty i struktura informacji
Ręczne testy renderowania i mobilności
Interpretacja i naprawa typowych błędów
Soft 404, 404 i błędy ścieżek
„Crawled/Discovered – currently not indexed” i cienka treść
Duplikacja i wybór wersji kanonicznej
Blokady: robots, noindex i nagłówki
Błędy serwera i stabilność
Mapy witryny: higiena i priorytety
Dane strukturalne i fragmenty rozszerzone
Problemy z JavaScriptem i renderowaniem
Hreflang, wielojęzyczność i regiony
Kontrola jakości treści i sygnały ważności
Proces napraw i monitorowanie
Kontrola krzyżowa z innymi narzędziami
Checklist – czego szukać przy każdym adresie
Przykładowa procedura krok po kroku dla całej sekcji
Częste pułapki, o których łatwo zapomnieć
Kiedy eskalować i włączyć programistów/hosting
Wytyczne operacyjne

Jeśli ruch organiczny spada, a nowe podstrony długo nie pojawiają się w wynikach, problem często tkwi w tym, jak roboty wyszukiwarek widzą i zapisują Twoje strony. Ten przewodnik pomoże Ci krok po kroku sprawdzić, gdzie powstają błędy oraz jak je potwierdzić w danych. Przejdziesz od szybkiej diagnozy, przez użycie narzędzi, po techniczną analizę i plan napraw. Celem jest wykrycie, czy kłopot dotyczy wykrywalności, renderowania, dostępności lub jakości treści.

Przygotowanie i szybka diagnoza problemu

Ustal, co dokładnie chcesz sprawdzić

Zacznij od zdefiniowania zakresu: konkretna podstrona, sekcja witryny (np. blog), czy cały serwis. Zbierz przykłady adresów URL, które Twoim zdaniem powinny być w wyszukiwarce, a ich nie ma. Dobrze jest mieć listę 10–50 adresów o różnych typach (kategorie, produkty, wpisy), aby porównać wzorce błędów i ocenić, czy problem ma charakter jednostkowy, czy systemowy.

Szybkie testy widoczności

Użyj operatora site: w Google (np. site:twojadomena.pl) i porównaj liczbę zwróconych adresów z realną liczbą stron. Duża rozbieżność bywa pierwszym sygnałem ograniczonej widoczności.
Sprawdź wybrane adresy w wyszukiwarce z operatorem inurl: lub intitle:, aby ocenić, czy trafiają do indeksu pod zmienionymi tytułami lub parametrami.
Porównaj ruch organiczny dzień do dnia i rok do roku w narzędziu analitycznym – jeśli spadek koreluje z wdrożeniami lub awarią serwera, kieruj diagnozę w stronę problemów technicznych.

Wyjaśnienie pojęć (w skrócie)

indeksowanie – zapisanie strony w bazie wyszukiwarki, aby mogła pojawić się w wynikach.
crawling – odwiedzanie i pobieranie treści przez roboty; warunek wstępny dla indeksacji.
robots.txt – plik kontrolujący dostęp robotów do sekcji witryny.
noindex – dyrektywa wykluczająca stronę z indeksu, umieszczana w meta tagach lub nagłówkach.
sitemap – mapa adresów URL dla robotów, ułatwiająca znalezienie i aktualizację treści.
Tag kanoniczny – wskazuje preferowaną wersję strony przy duplikacji.
przekierowania – mechanizmy zmiany lokalizacji URL (301/302) wpływające na indeksację i sygnały.
Kody 404 i 5xx – błędy klienta i serwera, które przerywają indeksację.
logi – zapisy żądań do serwera, pozwalające śledzić zachowanie robotów.

Przygotuj dostęp i dane wejściowe

Dostęp do Google Search Console (wszystkie prefiksy domeny: http i https, z www i bez).
Lista kluczowych adresów URL (np. eksport z CMS lub z mapy witryny), by sprawdzać indeksację hurtowo.
Dostęp do serwera/hostingu: nagłówki, pliki konfiguracyjne, plik robots.txt i mapy XML.
Historia wdrożeń (changelog), aby łączyć błędy z konkretnymi zmianami.

Sprawdzanie błędów w Google Search Console

Zweryfikuj własność i wybierz właściwą usługę

W GSC dodaj usługę typu domena (poleca się), aby objąć wszystkie protokoły i subdomeny. Jeśli to niemożliwe, dodaj cztery usługi URL-prefix: http://, https://, z www i bez. Upewnij się, że masz poziom dostępu pozwalający przeglądać raporty Indeksowanie i przesyłać mapy witryny.

Raport Indeksowanie → Strony: statusy i segmentacja

Przejdź do sekcji Indeksowanie → Strony. Ten raport pokazuje, które adresy są zaindeksowane i dlaczego inne nie są. Przełączaj się między „Wszystkie znane strony” a „Strony przesłane” (tylko z mapy witryny), aby zobaczyć różnicę między tym, co Google znalazł sam, a tym, co mu dostarczyłeś.

Crawled – currently not indexed / Przeskanowano – obecnie nie zindeksowano: treść została pobrana, ale nie dodana do indeksu. Częste powody: zbyt niska wartość, duplikacja, cienka treść, problemy jakościowe.
Discovered – currently not indexed / Odkryto – obecnie nie zindeksowano: Google zna adres, ale go nie pobrał (zazwyczaj budżet lub priorytetyzacja, czasem blokada zasobów).
Excluded by ‘noindex’: meta lub nagłówek X-Robots-Tag wyklucza stronę z indeksu.
Blocked by robots.txt: plik robots.txt blokuje pobieranie – pamiętaj, blokada crawlowania uniemożliwia też odczyt meta-znaczników.
Soft 404: strona wygląda jak błąd (np. pusta kategoria) mimo statusu 200.
Alternate page with proper canonical: Google wybrał inny adres jako kanoniczny – to nie zawsze błąd, ale trzeba potwierdzić, czy wybór jest zgodny z intencją.
Duplicate without user-selected canonical: duplikaty bez wskazania kanonicznego – rozważ ustawienie rel=canonical.
Redirect error / Błąd przekierowania: pętle, łańcuchy lub konflikty statusów.
Server error (5xx) i Not found (404): awarie i brak zasobów.

Analizuj raport z filtrami: segmentuj według typu szablonu (np. /blog/, /produkt/) poprzez dodanie filtra URL zawiera. To pomoże powiązać problemy z konkretnym modułem w CMS lub plikiem szablonu.

Inspekcja adresu URL: test na żywo i indeksacja na żądanie

W pasku u góry użyj Inspekcji adresu URL. Wklej podejrzany adres i sprawdź:

Czy adres jest w indeksie i jaka wersja kanoniczna została wybrana przez Google.
Czy strona jest umożliwiona do indeksowania (meta robots, nagłówki, robots.txt).
Renderowanie: zobacz, czy ważne treści są w HTML zrenderowanym. Jeśli kluczowe bloki pojawiają się dopiero po JS, a roboty mają utrudnione renderowanie, rozważ SSR/rehydratację.
Stan pobierania i ostatnie zindeksowanie – czy Google wraca na stronę.

Użyj „Testuj adres URL na żywo”, aby pominąć cache i sprawdzić aktualny stan. Jeżeli już naprawiłeś problem, skorzystaj z „Poproś o zaindeksowanie”, ale pamiętaj, że to sygnał, a nie gwarancja.

Mapy witryny: przesyłanie, walidacja i pokrycie

Wejdź w Indeksowanie → Mapy witryn. Sprawdź, czy pliki są dostępne, poprawnie sformatowane i aktualizują się po zmianach. Zadbaj o:

Struktury: używaj indeksu map (sitemap_index.xml) przy dużych serwisach, dzieląc mapy na logiczne sekcje (np. produkty, kategorie, blog).
Sygnatury czasowe lastmod: aktualizuj datę modyfikacji przy treściach rzeczywiście zmienionych; to pomaga priorytetyzować crawl.
Brak adresów z 3xx, 4xx, 5xx – mapa powinna zawierać wyłącznie strony docelowe 200.
Spójność protokołu i hosta: nie mieszaj http/https ani www/bez-www.

Analiza techniczna poza GSC

Sprawdź plik robots.txt i jego zachowanie

Wejdź pod /robots.txt i upewnij się, że nie blokujesz kluczowych sekcji. Typowe pułapki:

Globalne Disallow: / dla User-agent: * pozostawione po testach zmian – odcina crawl całej witryny.
Blokady dla /wp-admin/ lub folderów systemowych, które przypadkiem obejmują zasoby krytyczne (np. pliki JS/CSS), utrudniając renderowanie.
Różnice między środowiskami (dev/stage/produkcja) – pamiętaj o dyrektywie i o tym, że roboty mogą zaciągać cache robots.txt; po zmianach sprawdź odpowiedź nagłówków, TTL i odświeżenie.

Jeżeli używasz wielu subdomen, każda ma własny plik robots.txt (np. cdn.twojadomena.pl/robots.txt). Upewnij się, że zasoby z innych hostów nie są blokowane, jeżeli są krytyczne dla renderu.

Nagłówki HTTP, meta robots i X-Robots-Tag

Za pomocą curl lub przeglądarkowych narzędzi deweloperskich sprawdź:

Status HTTP (200, 301/302, 404, 410, 500+) i łańcuchy przekierowań. Długie łańcuchy obniżają skuteczność crawlu i mogą powodować błędy.
Meta robots i X-Robots-Tag w odpowiedzi – szukaj dyrektyw noindex, nofollow, noarchive, nosnippet, które mogą ograniczać ekspozycję.
Rel=canonical: czy wskazuje na siebie (self-referential) tam, gdzie powinna, i czy nie odsyła do innej domeny bez powodu.
Vary: User-Agent i Content-Type – istotne przy dynamicznym serwowaniu treści.

Analiza logów serwera i budżet crawlu

Eksportuj logi HTTP i przeanalizuj żądania od Googlebot (i innych botów). Odpowiedz na pytania:

Jak często robot odwiedza kluczowe sekcje i które kody zwrotne widzi najczęściej?
Czy są pętle przekierowań, czasochłonne odpowiedzi, lub nadmierna liczba 404, które marnują budżet?
Czy roboty trafiają na parametryzowane strony, które generują niemal nieskończone kombinacje (filtry, sortowania)? Rozważ reguły canonical, noindex lub ograniczenia parametrów.

W dużych serwisach raportuj rozkład statusów i średni TTFB dla Googlebota. Wysokie opóźnienia korelują z obniżeniem tempa crawlu.

Linkowanie wewnętrzne, sieroty i struktura informacji

Przeskanuj witrynę crawlerem SEO i sprawdź:

Strony sieroty (orphan pages) – znane, lecz bez linków wewnętrznych. Dostarcz linki z nawigacji lub spisów treści.
Głębokość kliknięć (click depth) – ważne strony powinny być osiągalne w 1–3 kliknięciach z home.
Anchor text i kontekst – pomóż botom zrozumieć tematykę i relacje między treściami.

Ręczne testy renderowania i mobilności

Tryb mobilny: Google stosuje mobile-first indexing. Sprawdź, czy wersja mobilna serwuje tę samą treść, meta tagi i linki co desktop.
Render: użyj narzędzi developerskich, by zobaczyć, czy po wyłączeniu JS wciąż widać kluczową treść. Jeśli nie, rozważ prerendering/SSR.
Szybkość: bardzo długi TTFB i wolne zasoby mogą powodować time-outy i błędy indeksacji.

Interpretacja i naprawa typowych błędów

Soft 404, 404 i błędy ścieżek

Soft 404: strona zwraca 200, ale treść jest pusta/„nie znaleziono”. Rozwiązanie: zwracaj 404/410 dla nieistniejących zasobów lub uzupełnij stronę o wartościową treść, jeśli to kategoria/listing.
Prawdziwe 404: naturalne przy wygaszonych produktach, ale nie linkuj do nich wewnętrznie i nie umieszczaj w mapach. Dla popularnych adresów rozważ 301 do najbliższej kategorii, jeśli to sensowne.
Łańcuchy przekierowań: skróć do jednego skoku 301. Unikaj połączeń 302 w stałych trasach.

„Crawled/Discovered – currently not indexed” i cienka treść

Jeżeli Google zna stronę, ale jej nie indeksuje, skup się na jakości i sygnałach ważności:

Wzmocnij linkowanie wewnętrzne do tej podstrony z kontekstowych miejsc o wysokiej widoczności.
Rozszerz treść: unikalne opisy, dane strukturalne, odpowiedzi na intencję użytkownika, elementy E-E-A-T (autor, źródła, doświadczenie).
Usuń duplikaty parametrów, filtry i słabe warianty – scal je kanonicznie lub blokuj indeksację, zostawiając jedną mocną wersję.
Zapewnij zgodność tytułu, H1 i treści z zapytaniami. Uważaj na nadoptymalizację.

Duplikacja i wybór wersji kanonicznej

Ustal reguły: jeden adres docelowy dla treści (bez parametrów, z właściwym protokołem i hostem).
W rel=canonical wskaż stronę preferowaną; pamiętaj o spójności sygnałów (canonical, linki wewnętrzne, mapy witryny, przekierowania).
W wariantach sortowania i filtrów zastosuj noindex, follow lub canonical do wersji bazowej, w zależności od wartości tych stron.
Dla paginacji: rozważ logiczne powiązania i linkowanie między stronami, a główną kategorią.

Blokady: robots, noindex i nagłówki

Jeśli chcesz wyłączyć stronę z indeksu, użyj noindex (meta lub X-Robots-Tag). Nie blokuj jej w robots.txt, bo wtedy robot może nie odczytać dyrektywy noindex.
Jeśli chcesz ograniczyć crawl (np. parametry), robots.txt jest właściwym miejscem, ale pamiętaj o konsekwencjach dla renderowania.
Sprawdź, czy środowiska testowe nie przeciekły do indeksu; zastosuj mechanizmy uwierzytelniania lub noindex + blokadę w regułach serwera.

Błędy serwera i stabilność

5xx i timeouty: zweryfikuj wydajność aplikacji, baz danych i cache. Rozważ CDN, optymalizację zapytań i skalowanie poziome/pionowe.
Ochrona przed botami: zbyt agresywne WAF/Rate Limit może odcinać Googlebota. Dodaj wyjątki dla user-agentów i IP Google.
Headless/dynamic rendering: upewnij się, że serwer nie serwuje pustych stanów dla botów (Sprawdź user-agent i wersję mobilną).

Mapy witryny: higiena i priorytety

Publikuj tylko adresy 200, kanoniczne i indeksowalne. Usuń nieaktualne URL-e po 301/410.
Aktualizuj lastmod zgodnie z realnymi zmianami; nie manipuluj datą bez powodu.
Rozbij ogromne mapy (limity: 50 tys. adresów lub 50 MB nieskompresowane). Utrzymuj spójny schemat nazewnictwa, by łatwo monitorować błędy.
Weryfikuj mapy po wdrożeniach – nawet drobny błąd składni unieruchomi przetwarzanie.

Dane strukturalne i fragmenty rozszerzone

Choć mikroformaty nie gwarantują indeksacji, poprawne schema.org pomaga zrozumieć typ treści i może zwiększyć priorytet. Waliduj w narzędziu do testowania wyników z elementami rozszerzonymi, eliminując ostrzeżenia i błędy.

Problemy z JavaScriptem i renderowaniem

Zadbaj o SSR lub pre-render kluczowych elementów: tytuł, opis, treść główna, linki wewnętrzne, meta robots i canonical w HTML initial.
Nie opieraj krytycznych linków na eventach JS; robot może ich nie wykonać.
Minimalizuj blokujące zasoby i opóźnienia – długi TTFB i ciężkie bundle JS obniżają skuteczność pobierania.

Hreflang, wielojęzyczność i regiony

Wprowadzaj dwukierunkowe adnotacje hreflang między wariantami językowymi.
Wersja x-default dla stron wyboru języka.
Upewnij się, że canonical nie wskazuje na inny język; canonical powinien być wewnątrz tej samej wersji.

Kontrola jakości treści i sygnały ważności

Eliminuj thin content: krótkie, powtarzalne teksty, puste kategorie; łącz podobne strony.
Wzmacniaj E-E-A-T: autorstwo, referencje, polityki, kontakt, opinie użytkowników.
Aktualizuj stare treści i odśwież lastmod oraz mapy witryny po realnych zmianach.

Proces napraw i monitorowanie

Priorytety: najpierw błędy 5xx, pętle przekierowań, globalne blokady robots i noindex.
Potem jakość: duplikacje, cienkie treści, brakujące linkowanie wewnętrzne.
Na końcu optymalizacje: wydajność, porządkowanie parametrów, porządek w mapach.
Po wdrożeniach: Inspekcja URL i „Poproś o zaindeksowanie” dla reprezentantów grup, a następnie monitoruj raport „Strony”.
Raportuj tygodniowo: liczba zindeksowanych, liczba błędów, TTFB dla Googlebota, status map witryn.

Kontrola krzyżowa z innymi narzędziami

Bing Webmaster Tools: raporty pokrewne do GSC, dodatkowe spojrzenie na indeksację.
Crawlers SEO: wykryją pętle, kanonikalizację, meta tagi i hierarchię linków.
Monitoring uptime i odpowiedzi HTTP: powiadomienia o 5xx, skokach TTFB i zmianach DNS/SSL.

Checklist – czego szukać przy każdym adresie

Status HTTP: 200/301 (unikaj 302 dla docelowych URL-i).
Meta robots/noindex i X-Robots-Tag: brak niepożądanych blokad.
Rel=canonical: spójny z mapą i z linkami wewnętrznymi.
robots.txt: brak blokady dla ścieżki.
Render: tekst główny obecny w HTML initial lub dostępny po renderze dla bota.
Linki wewnętrzne: przynajmniej kilka kontekstowych wejść do strony.
Mapa witryny: adres tam jest, jeśli to strona, którą chcesz pozycjonować.
Wydajność: rozsądny TTFB i brak błędów zasobów krytycznych.

Przykładowa procedura krok po kroku dla całej sekcji

Wyeksportuj listę URL-i sekcji (np. /blog/). Usuń parametry i duplikaty.
Sprawdź ich status w GSC (Strony → filtr ścieżki). Zanotuj rozkład statusów.
Przeskanuj sekcję crawlerem: statusy, meta, canonical, głębokość kliknięć.
Zweryfikuj robots.txt i reguły serwera (nagłówki, X-Robots-Tag).
Oceń jakość treści i wewnętrzne linkowanie. Zaplanuj wzmocnienia.
Wdróż poprawki: przekierowania, canonicale, noindex dla słabych wariantów, uzupełnienia treści.
Zaktualizuj mapy witryny i poproś o indeksację reprezentatywnych URL-i.
Monitoruj raport „Strony” przez 2–4 tygodnie i powtarzaj dla kolejnych grup.

Częste pułapki, o których łatwo zapomnieć

Pozostawiony noindex po migracji lub testach A/B.
Canonicale wskazujące na stronicowanie lub na inną domenę przez błąd szablonu.
Linki wewnętrzne prowadzące do starych adresów po refaktorze URL-i.
Mapy witryny generowane przez wiele wtyczek jednocześnie (konflikty, duplikaty).
Parametry UTM w linkach wewnętrznych – tworzą duplikaty i marnują crawl.
Blokowanie folderu z plikami JS/CSS potrzebnymi do renderu.
Brak alt i lazy-load bez noscript dla kluczowych elementów treści.

Kiedy eskalować i włączyć programistów/hosting

Stałe 5xx pod obciążeniem, skoki TTFB, błędy TLS/SSL.
Problemy z rozwiązywaniem DNS, zmiany IP i błędy sieciowe.
Nieprzewidywalne różnice między wersją mobilną i desktopową serwowane warunkowo.
Potrzeba SSR/prerenderingu dla kluczowych sekcji (frameworki JS).

Wytyczne operacyjne

Dokumentuj każdą zmianę: data, zakres, metryki bazowe.
Oddziel środowiska (dev/stage/prod) i stosuj zabezpieczenia przed indeksacją na testach.
Ustal cykl przeglądu: tygodniowy skan sekcji krytycznych i comiesięczny przegląd pełny.
Utrzymuj jedną, oficjalną mapę indeksową i kontroluj generatory w CMS.