- Przygotowanie i szybka diagnoza problemu
- Ustal, co dokładnie chcesz sprawdzić
- Szybkie testy widoczności
- Wyjaśnienie pojęć (w skrócie)
- Przygotuj dostęp i dane wejściowe
- Sprawdzanie błędów w Google Search Console
- Zweryfikuj własność i wybierz właściwą usługę
- Raport Indeksowanie → Strony: statusy i segmentacja
- Inspekcja adresu URL: test na żywo i indeksacja na żądanie
- Mapy witryny: przesyłanie, walidacja i pokrycie
- Analiza techniczna poza GSC
- Sprawdź plik robots.txt i jego zachowanie
- Nagłówki HTTP, meta robots i X-Robots-Tag
- Analiza logów serwera i budżet crawlu
- Linkowanie wewnętrzne, sieroty i struktura informacji
- Ręczne testy renderowania i mobilności
- Interpretacja i naprawa typowych błędów
- Soft 404, 404 i błędy ścieżek
- „Crawled/Discovered – currently not indexed” i cienka treść
- Duplikacja i wybór wersji kanonicznej
- Blokady: robots, noindex i nagłówki
- Błędy serwera i stabilność
- Mapy witryny: higiena i priorytety
- Dane strukturalne i fragmenty rozszerzone
- Problemy z JavaScriptem i renderowaniem
- Hreflang, wielojęzyczność i regiony
- Kontrola jakości treści i sygnały ważności
- Proces napraw i monitorowanie
- Kontrola krzyżowa z innymi narzędziami
- Checklist – czego szukać przy każdym adresie
- Przykładowa procedura krok po kroku dla całej sekcji
- Częste pułapki, o których łatwo zapomnieć
- Kiedy eskalować i włączyć programistów/hosting
- Wytyczne operacyjne
Jeśli ruch organiczny spada, a nowe podstrony długo nie pojawiają się w wynikach, problem często tkwi w tym, jak roboty wyszukiwarek widzą i zapisują Twoje strony. Ten przewodnik pomoże Ci krok po kroku sprawdzić, gdzie powstają błędy oraz jak je potwierdzić w danych. Przejdziesz od szybkiej diagnozy, przez użycie narzędzi, po techniczną analizę i plan napraw. Celem jest wykrycie, czy kłopot dotyczy wykrywalności, renderowania, dostępności lub jakości treści.
Przygotowanie i szybka diagnoza problemu
Ustal, co dokładnie chcesz sprawdzić
Zacznij od zdefiniowania zakresu: konkretna podstrona, sekcja witryny (np. blog), czy cały serwis. Zbierz przykłady adresów URL, które Twoim zdaniem powinny być w wyszukiwarce, a ich nie ma. Dobrze jest mieć listę 10–50 adresów o różnych typach (kategorie, produkty, wpisy), aby porównać wzorce błędów i ocenić, czy problem ma charakter jednostkowy, czy systemowy.
Szybkie testy widoczności
- Użyj operatora site: w Google (np. site:twojadomena.pl) i porównaj liczbę zwróconych adresów z realną liczbą stron. Duża rozbieżność bywa pierwszym sygnałem ograniczonej widoczności.
- Sprawdź wybrane adresy w wyszukiwarce z operatorem inurl: lub intitle:, aby ocenić, czy trafiają do indeksu pod zmienionymi tytułami lub parametrami.
- Porównaj ruch organiczny dzień do dnia i rok do roku w narzędziu analitycznym – jeśli spadek koreluje z wdrożeniami lub awarią serwera, kieruj diagnozę w stronę problemów technicznych.
Wyjaśnienie pojęć (w skrócie)
- indeksowanie – zapisanie strony w bazie wyszukiwarki, aby mogła pojawić się w wynikach.
- crawling – odwiedzanie i pobieranie treści przez roboty; warunek wstępny dla indeksacji.
- robots.txt – plik kontrolujący dostęp robotów do sekcji witryny.
- noindex – dyrektywa wykluczająca stronę z indeksu, umieszczana w meta tagach lub nagłówkach.
- sitemap – mapa adresów URL dla robotów, ułatwiająca znalezienie i aktualizację treści.
- Tag kanoniczny – wskazuje preferowaną wersję strony przy duplikacji.
- przekierowania – mechanizmy zmiany lokalizacji URL (301/302) wpływające na indeksację i sygnały.
- Kody 404 i 5xx – błędy klienta i serwera, które przerywają indeksację.
- logi – zapisy żądań do serwera, pozwalające śledzić zachowanie robotów.
Przygotuj dostęp i dane wejściowe
- Dostęp do Google Search Console (wszystkie prefiksy domeny: http i https, z www i bez).
- Lista kluczowych adresów URL (np. eksport z CMS lub z mapy witryny), by sprawdzać indeksację hurtowo.
- Dostęp do serwera/hostingu: nagłówki, pliki konfiguracyjne, plik robots.txt i mapy XML.
- Historia wdrożeń (changelog), aby łączyć błędy z konkretnymi zmianami.
Sprawdzanie błędów w Google Search Console
Zweryfikuj własność i wybierz właściwą usługę
W GSC dodaj usługę typu domena (poleca się), aby objąć wszystkie protokoły i subdomeny. Jeśli to niemożliwe, dodaj cztery usługi URL-prefix: http://, https://, z www i bez. Upewnij się, że masz poziom dostępu pozwalający przeglądać raporty Indeksowanie i przesyłać mapy witryny.
Raport Indeksowanie → Strony: statusy i segmentacja
Przejdź do sekcji Indeksowanie → Strony. Ten raport pokazuje, które adresy są zaindeksowane i dlaczego inne nie są. Przełączaj się między „Wszystkie znane strony” a „Strony przesłane” (tylko z mapy witryny), aby zobaczyć różnicę między tym, co Google znalazł sam, a tym, co mu dostarczyłeś.
- Crawled – currently not indexed / Przeskanowano – obecnie nie zindeksowano: treść została pobrana, ale nie dodana do indeksu. Częste powody: zbyt niska wartość, duplikacja, cienka treść, problemy jakościowe.
- Discovered – currently not indexed / Odkryto – obecnie nie zindeksowano: Google zna adres, ale go nie pobrał (zazwyczaj budżet lub priorytetyzacja, czasem blokada zasobów).
- Excluded by ‘noindex’: meta lub nagłówek X-Robots-Tag wyklucza stronę z indeksu.
- Blocked by robots.txt: plik robots.txt blokuje pobieranie – pamiętaj, blokada crawlowania uniemożliwia też odczyt meta-znaczników.
- Soft 404: strona wygląda jak błąd (np. pusta kategoria) mimo statusu 200.
- Alternate page with proper canonical: Google wybrał inny adres jako kanoniczny – to nie zawsze błąd, ale trzeba potwierdzić, czy wybór jest zgodny z intencją.
- Duplicate without user-selected canonical: duplikaty bez wskazania kanonicznego – rozważ ustawienie rel=canonical.
- Redirect error / Błąd przekierowania: pętle, łańcuchy lub konflikty statusów.
- Server error (5xx) i Not found (404): awarie i brak zasobów.
Analizuj raport z filtrami: segmentuj według typu szablonu (np. /blog/, /produkt/) poprzez dodanie filtra URL zawiera. To pomoże powiązać problemy z konkretnym modułem w CMS lub plikiem szablonu.
Inspekcja adresu URL: test na żywo i indeksacja na żądanie
W pasku u góry użyj Inspekcji adresu URL. Wklej podejrzany adres i sprawdź:
- Czy adres jest w indeksie i jaka wersja kanoniczna została wybrana przez Google.
- Czy strona jest umożliwiona do indeksowania (meta robots, nagłówki, robots.txt).
- Renderowanie: zobacz, czy ważne treści są w HTML zrenderowanym. Jeśli kluczowe bloki pojawiają się dopiero po JS, a roboty mają utrudnione renderowanie, rozważ SSR/rehydratację.
- Stan pobierania i ostatnie zindeksowanie – czy Google wraca na stronę.
Użyj „Testuj adres URL na żywo”, aby pominąć cache i sprawdzić aktualny stan. Jeżeli już naprawiłeś problem, skorzystaj z „Poproś o zaindeksowanie”, ale pamiętaj, że to sygnał, a nie gwarancja.
Mapy witryny: przesyłanie, walidacja i pokrycie
Wejdź w Indeksowanie → Mapy witryn. Sprawdź, czy pliki są dostępne, poprawnie sformatowane i aktualizują się po zmianach. Zadbaj o:
- Struktury: używaj indeksu map (sitemap_index.xml) przy dużych serwisach, dzieląc mapy na logiczne sekcje (np. produkty, kategorie, blog).
- Sygnatury czasowe lastmod: aktualizuj datę modyfikacji przy treściach rzeczywiście zmienionych; to pomaga priorytetyzować crawl.
- Brak adresów z 3xx, 4xx, 5xx – mapa powinna zawierać wyłącznie strony docelowe 200.
- Spójność protokołu i hosta: nie mieszaj http/https ani www/bez-www.
Analiza techniczna poza GSC
Sprawdź plik robots.txt i jego zachowanie
Wejdź pod /robots.txt i upewnij się, że nie blokujesz kluczowych sekcji. Typowe pułapki:
- Globalne Disallow: / dla User-agent: * pozostawione po testach zmian – odcina crawl całej witryny.
- Blokady dla /wp-admin/ lub folderów systemowych, które przypadkiem obejmują zasoby krytyczne (np. pliki JS/CSS), utrudniając renderowanie.
- Różnice między środowiskami (dev/stage/produkcja) – pamiętaj o dyrektywie i o tym, że roboty mogą zaciągać cache robots.txt; po zmianach sprawdź odpowiedź nagłówków, TTL i odświeżenie.
Jeżeli używasz wielu subdomen, każda ma własny plik robots.txt (np. cdn.twojadomena.pl/robots.txt). Upewnij się, że zasoby z innych hostów nie są blokowane, jeżeli są krytyczne dla renderu.
Nagłówki HTTP, meta robots i X-Robots-Tag
Za pomocą curl lub przeglądarkowych narzędzi deweloperskich sprawdź:
- Status HTTP (200, 301/302, 404, 410, 500+) i łańcuchy przekierowań. Długie łańcuchy obniżają skuteczność crawlu i mogą powodować błędy.
- Meta robots i X-Robots-Tag w odpowiedzi – szukaj dyrektyw noindex, nofollow, noarchive, nosnippet, które mogą ograniczać ekspozycję.
- Rel=canonical: czy wskazuje na siebie (self-referential) tam, gdzie powinna, i czy nie odsyła do innej domeny bez powodu.
- Vary: User-Agent i Content-Type – istotne przy dynamicznym serwowaniu treści.
Analiza logów serwera i budżet crawlu
Eksportuj logi HTTP i przeanalizuj żądania od Googlebot (i innych botów). Odpowiedz na pytania:
- Jak często robot odwiedza kluczowe sekcje i które kody zwrotne widzi najczęściej?
- Czy są pętle przekierowań, czasochłonne odpowiedzi, lub nadmierna liczba 404, które marnują budżet?
- Czy roboty trafiają na parametryzowane strony, które generują niemal nieskończone kombinacje (filtry, sortowania)? Rozważ reguły canonical, noindex lub ograniczenia parametrów.
W dużych serwisach raportuj rozkład statusów i średni TTFB dla Googlebota. Wysokie opóźnienia korelują z obniżeniem tempa crawlu.
Linkowanie wewnętrzne, sieroty i struktura informacji
Przeskanuj witrynę crawlerem SEO i sprawdź:
- Strony sieroty (orphan pages) – znane, lecz bez linków wewnętrznych. Dostarcz linki z nawigacji lub spisów treści.
- Głębokość kliknięć (click depth) – ważne strony powinny być osiągalne w 1–3 kliknięciach z home.
- Anchor text i kontekst – pomóż botom zrozumieć tematykę i relacje między treściami.
Ręczne testy renderowania i mobilności
- Tryb mobilny: Google stosuje mobile-first indexing. Sprawdź, czy wersja mobilna serwuje tę samą treść, meta tagi i linki co desktop.
- Render: użyj narzędzi developerskich, by zobaczyć, czy po wyłączeniu JS wciąż widać kluczową treść. Jeśli nie, rozważ prerendering/SSR.
- Szybkość: bardzo długi TTFB i wolne zasoby mogą powodować time-outy i błędy indeksacji.
Interpretacja i naprawa typowych błędów
Soft 404, 404 i błędy ścieżek
- Soft 404: strona zwraca 200, ale treść jest pusta/„nie znaleziono”. Rozwiązanie: zwracaj 404/410 dla nieistniejących zasobów lub uzupełnij stronę o wartościową treść, jeśli to kategoria/listing.
- Prawdziwe 404: naturalne przy wygaszonych produktach, ale nie linkuj do nich wewnętrznie i nie umieszczaj w mapach. Dla popularnych adresów rozważ 301 do najbliższej kategorii, jeśli to sensowne.
- Łańcuchy przekierowań: skróć do jednego skoku 301. Unikaj połączeń 302 w stałych trasach.
„Crawled/Discovered – currently not indexed” i cienka treść
Jeżeli Google zna stronę, ale jej nie indeksuje, skup się na jakości i sygnałach ważności:
- Wzmocnij linkowanie wewnętrzne do tej podstrony z kontekstowych miejsc o wysokiej widoczności.
- Rozszerz treść: unikalne opisy, dane strukturalne, odpowiedzi na intencję użytkownika, elementy E-E-A-T (autor, źródła, doświadczenie).
- Usuń duplikaty parametrów, filtry i słabe warianty – scal je kanonicznie lub blokuj indeksację, zostawiając jedną mocną wersję.
- Zapewnij zgodność tytułu, H1 i treści z zapytaniami. Uważaj na nadoptymalizację.
Duplikacja i wybór wersji kanonicznej
- Ustal reguły: jeden adres docelowy dla treści (bez parametrów, z właściwym protokołem i hostem).
- W rel=canonical wskaż stronę preferowaną; pamiętaj o spójności sygnałów (canonical, linki wewnętrzne, mapy witryny, przekierowania).
- W wariantach sortowania i filtrów zastosuj noindex, follow lub canonical do wersji bazowej, w zależności od wartości tych stron.
- Dla paginacji: rozważ logiczne powiązania i linkowanie między stronami, a główną kategorią.
Blokady: robots, noindex i nagłówki
- Jeśli chcesz wyłączyć stronę z indeksu, użyj noindex (meta lub X-Robots-Tag). Nie blokuj jej w robots.txt, bo wtedy robot może nie odczytać dyrektywy noindex.
- Jeśli chcesz ograniczyć crawl (np. parametry), robots.txt jest właściwym miejscem, ale pamiętaj o konsekwencjach dla renderowania.
- Sprawdź, czy środowiska testowe nie przeciekły do indeksu; zastosuj mechanizmy uwierzytelniania lub noindex + blokadę w regułach serwera.
Błędy serwera i stabilność
- 5xx i timeouty: zweryfikuj wydajność aplikacji, baz danych i cache. Rozważ CDN, optymalizację zapytań i skalowanie poziome/pionowe.
- Ochrona przed botami: zbyt agresywne WAF/Rate Limit może odcinać Googlebota. Dodaj wyjątki dla user-agentów i IP Google.
- Headless/dynamic rendering: upewnij się, że serwer nie serwuje pustych stanów dla botów (Sprawdź user-agent i wersję mobilną).
Mapy witryny: higiena i priorytety
- Publikuj tylko adresy 200, kanoniczne i indeksowalne. Usuń nieaktualne URL-e po 301/410.
- Aktualizuj lastmod zgodnie z realnymi zmianami; nie manipuluj datą bez powodu.
- Rozbij ogromne mapy (limity: 50 tys. adresów lub 50 MB nieskompresowane). Utrzymuj spójny schemat nazewnictwa, by łatwo monitorować błędy.
- Weryfikuj mapy po wdrożeniach – nawet drobny błąd składni unieruchomi przetwarzanie.
Dane strukturalne i fragmenty rozszerzone
Choć mikroformaty nie gwarantują indeksacji, poprawne schema.org pomaga zrozumieć typ treści i może zwiększyć priorytet. Waliduj w narzędziu do testowania wyników z elementami rozszerzonymi, eliminując ostrzeżenia i błędy.
Problemy z JavaScriptem i renderowaniem
- Zadbaj o SSR lub pre-render kluczowych elementów: tytuł, opis, treść główna, linki wewnętrzne, meta robots i canonical w HTML initial.
- Nie opieraj krytycznych linków na eventach JS; robot może ich nie wykonać.
- Minimalizuj blokujące zasoby i opóźnienia – długi TTFB i ciężkie bundle JS obniżają skuteczność pobierania.
Hreflang, wielojęzyczność i regiony
- Wprowadzaj dwukierunkowe adnotacje hreflang między wariantami językowymi.
- Wersja x-default dla stron wyboru języka.
- Upewnij się, że canonical nie wskazuje na inny język; canonical powinien być wewnątrz tej samej wersji.
Kontrola jakości treści i sygnały ważności
- Eliminuj thin content: krótkie, powtarzalne teksty, puste kategorie; łącz podobne strony.
- Wzmacniaj E-E-A-T: autorstwo, referencje, polityki, kontakt, opinie użytkowników.
- Aktualizuj stare treści i odśwież lastmod oraz mapy witryny po realnych zmianach.
Proces napraw i monitorowanie
- Priorytety: najpierw błędy 5xx, pętle przekierowań, globalne blokady robots i noindex.
- Potem jakość: duplikacje, cienkie treści, brakujące linkowanie wewnętrzne.
- Na końcu optymalizacje: wydajność, porządkowanie parametrów, porządek w mapach.
- Po wdrożeniach: Inspekcja URL i „Poproś o zaindeksowanie” dla reprezentantów grup, a następnie monitoruj raport „Strony”.
- Raportuj tygodniowo: liczba zindeksowanych, liczba błędów, TTFB dla Googlebota, status map witryn.
Kontrola krzyżowa z innymi narzędziami
- Bing Webmaster Tools: raporty pokrewne do GSC, dodatkowe spojrzenie na indeksację.
- Crawlers SEO: wykryją pętle, kanonikalizację, meta tagi i hierarchię linków.
- Monitoring uptime i odpowiedzi HTTP: powiadomienia o 5xx, skokach TTFB i zmianach DNS/SSL.
Checklist – czego szukać przy każdym adresie
- Status HTTP: 200/301 (unikaj 302 dla docelowych URL-i).
- Meta robots/noindex i X-Robots-Tag: brak niepożądanych blokad.
- Rel=canonical: spójny z mapą i z linkami wewnętrznymi.
- robots.txt: brak blokady dla ścieżki.
- Render: tekst główny obecny w HTML initial lub dostępny po renderze dla bota.
- Linki wewnętrzne: przynajmniej kilka kontekstowych wejść do strony.
- Mapa witryny: adres tam jest, jeśli to strona, którą chcesz pozycjonować.
- Wydajność: rozsądny TTFB i brak błędów zasobów krytycznych.
Przykładowa procedura krok po kroku dla całej sekcji
- Wyeksportuj listę URL-i sekcji (np. /blog/). Usuń parametry i duplikaty.
- Sprawdź ich status w GSC (Strony → filtr ścieżki). Zanotuj rozkład statusów.
- Przeskanuj sekcję crawlerem: statusy, meta, canonical, głębokość kliknięć.
- Zweryfikuj robots.txt i reguły serwera (nagłówki, X-Robots-Tag).
- Oceń jakość treści i wewnętrzne linkowanie. Zaplanuj wzmocnienia.
- Wdróż poprawki: przekierowania, canonicale, noindex dla słabych wariantów, uzupełnienia treści.
- Zaktualizuj mapy witryny i poproś o indeksację reprezentatywnych URL-i.
- Monitoruj raport „Strony” przez 2–4 tygodnie i powtarzaj dla kolejnych grup.
Częste pułapki, o których łatwo zapomnieć
- Pozostawiony noindex po migracji lub testach A/B.
- Canonicale wskazujące na stronicowanie lub na inną domenę przez błąd szablonu.
- Linki wewnętrzne prowadzące do starych adresów po refaktorze URL-i.
- Mapy witryny generowane przez wiele wtyczek jednocześnie (konflikty, duplikaty).
- Parametry UTM w linkach wewnętrznych – tworzą duplikaty i marnują crawl.
- Blokowanie folderu z plikami JS/CSS potrzebnymi do renderu.
- Brak alt i lazy-load bez noscript dla kluczowych elementów treści.
Kiedy eskalować i włączyć programistów/hosting
- Stałe 5xx pod obciążeniem, skoki TTFB, błędy TLS/SSL.
- Problemy z rozwiązywaniem DNS, zmiany IP i błędy sieciowe.
- Nieprzewidywalne różnice między wersją mobilną i desktopową serwowane warunkowo.
- Potrzeba SSR/prerenderingu dla kluczowych sekcji (frameworki JS).
Wytyczne operacyjne
- Dokumentuj każdą zmianę: data, zakres, metryki bazowe.
- Oddziel środowiska (dev/stage/prod) i stosuj zabezpieczenia przed indeksacją na testach.
- Ustal cykl przeglądu: tygodniowy skan sekcji krytycznych i comiesięczny przegląd pełny.
- Utrzymuj jedną, oficjalną mapę indeksową i kontroluj generatory w CMS.