Jak badać routing i indeksację w Next.js

Spis treści

Architektura routingu w Next.js a SEO techniczne
Pages Router vs App Router i ich wpływ na indeksację
Statyczne, dynamiczne, ISR, SSR – sygnały crawl budget
Parametry w ścieżkach, segmenty, route groups i kanoniczne adresy
Rewrites, redirects, trailingSlash i basePath
Audyt indeksacji: jak sprawdzić co jest indeksowane
Google Search Console, logi serwera, crawlery
Meta robots, X-Robots-Tag, statusy 200/301/404/410
Sitemapy w Next.js: app/sitemap.ts i narzędzia wspierające
Kanoniczne adresy, duplikaty, paginacja i hreflang
Testy i inspekcja renderingu
Sprawdzanie HTML po prerenderze i w czasie rzeczywistym
Renderowanie na Edge/Node, cache i revalidate
Testy E2E z Playwright/Cypress pod SEO
Performance a crawlability: prefetch, linkowanie wewnętrzne
Kontrola robots i metadanych w Next.js
API metadata w App Router i next/head w Pages
robots.txt, blokady zasobów i noindex na środowiskach testowych
Dane strukturalne i headery HTTP
Międzynarodowe SEO: hreflang i lokalizacje
Strategia zarządzania mapą adresów i stabilnością URL
Stabilność wzorców URL i migracje
Parametry query vs ścieżki i faceting
Kanony paginacji, sortowania, filtrów
Obsługa błędów: 404, 410, 451 i soft-404

Skuteczna widoczność aplikacji Next.js nie zaczyna się od słów kluczowych, lecz od porządku w adresach i kontrolowanej ekspozycji treści. To właśnie precyzyjny routing, świadomie dobrane metody renderowania i rygorystyczna indeksacja decydują o tym, jak crawlerzy rozumieją strukturę serwisu, jak dystrybuowany jest autorytet oraz czy roboty nie marnują zasobów na strony pomocnicze. Ten przewodnik pokazuje, jak badać i stroić te elementy, by techniczne SEO działało zamiast hamować rozwój.

Architektura routingu w Next.js a SEO techniczne

Pages Router vs App Router i ich wpływ na indeksację

Next.js obsługuje dwa paradygmaty: historyczny Pages Router oraz nowszy App Router oparty na segmentach katalogów. Dla SEO najistotniejsze jest, by zrozumieć, gdzie powstaje dokument HTML kierowany do indeksu. W Pages Routerze dokument tworzony jest przez getStaticProps/getServerSideProps lub czysty render Reacta. W App Routerze kluczowe stają się serwerowe komponenty, generateStaticParams, revalidate oraz generateMetadata. Niezależnie od stylu, docelowy HTML powinien zawierać pełny zestaw meta i linków kanonicznych już przy pierwszym wczytaniu, a logika klienta nie może warunkować istnienia podstawowej treści.

App Router przynosi dodatkowe udogodnienia dla SEO: konwencje jak layouty dzielone między segmentami, pliki sitemap.ts/robots.ts oraz wbudowane API metadanych. Elementy te zmniejszają powierzchnię błędów i ułatwiają centralną kontrolę. Ważne, by nie mnożyć wariantów URL poprzez route groups, parallel routes i intercepting routes – nie zmieniają ścieżki w pasku, ale mogą prowadzić do duplikacji treści jeśli linkowanie wewnętrzne jest niespójne.

Statyczne, dynamiczne, ISR, SSR – sygnały crawl budget

Wybór między SSG, ISR i SSR to nie tylko kwestia wydajności. Dla robotów liczy się stabilność odpowiedzi, spójne kody statusu i przewidywalność czasu generowania. Strony krytyczne dla pozyskiwania ruchu warto serwować statycznie lub przez ISR z rozsądnym revalidate, aby uniknąć przeciążeń i timeoutów podczas renderowania serwerowego. SSR ma sens tam, gdzie personalizacja wpływa na treść indeksowalną, ale pamiętaj o CDN i cache HTTP, by nie drenować crawl budget. W App Routerze można ustawić dynamic na force-static lub force-dynamic, determinując sposób generacji i cache.

W praktyce analizuj: czy ścieżki dynamiczne mają generowane listy parametrów (generateStaticParams), czy fallback nie wprowadza miękkich błędów 404, czy rewalidacja nie powoduje fluktuacji w HTML-owej strukturze. Stabilny, szybki rendering zwiększa częstotliwość odświeżania przez roboty i ułatwia kanonikalizację.

Parametry w ścieżkach, segmenty, route groups i kanoniczne adresy

Dynamiczne segmenty ([slug], [id]) przyspieszają rozwój, ale rodzą ryzyko wielokrotnych wariantów tego samego dokumentu. Filtry, sortowania i stronicowanie nie powinny produkować indeksowalnych duplikatów bez jasnej polityki. Zastosuj link rel=”canonical” na stronach wariantowych, a facety bez unikalnej wartości oznacz meta robots noindex. W App Routerze generuj kanonikale przez generateMetadata – to centralny punkt ograniczający rozjazdy między layoutami. Dodatkowo: nie eksponuj route groups (katalogi w nawiasach) w systemie linków, by nie sugerować alternatywnych struktur.

Wewnętrzne linkowanie buduje mapę ważności. Upewnij się, że listy kategorii prowadzą do najważniejszych stron opisowych i że breadcrumbs wskazują hierarchię. Unikaj linków prowadzących do tych samych treści pod różnymi query param, jeśli kanonikalizacja nie jest restrykcyjna.

Rewrites, redirects, trailingSlash i basePath

next.config pozwala kontrolować przepływ adresów przez rewrites i redirects. Dla SEO najbezpieczniejsze są przekierowania stałe 308/301, które jednoznacznie przenoszą sygnały. Rewrites ukrywają wewnętrzne ścieżki, ale mogą utrudnić debugowanie – zawsze weryfikuj, jaki URL końcowy widzi przeglądarka i crawler. trailingSlash oraz basePath muszą być zdefiniowane wcześnie i niezmiennie; zmiany w tych opcjach to migracje na poziomie całej witryny i mogą powodować utratę sygnałów, jeśli nie zostaną od razu osłonięte przekierowaniami. Testuj kaskady reguł pod kątem pętli i niespójnych protokołów (http/https).

Audyt indeksacji: jak sprawdzić co jest indeksowane

Google Search Console, logi serwera, crawlery

Podstawowym źródłem prawdy jest Search Console: raporty Indeksowanie, Strony i Sitemapy pokażą, co jest łapane, a co odrzucone. Dodatkowo analizuj logi serwera/CDN, aby ocenić częstotliwość wizyt Googlebotów na poszczególnych segmentach URL i identyfikować błędy 5xx, które dławią skanowanie. Zewnętrzne crawlery (np. Screaming Frog, Sitebulb) pozwalają symulować przegląd robota i wylistować problemy z metadanymi, kanonikalizacją i linkowaniem wewnętrznym. Pamiętaj, by skanować wersję po renderingu serwerowym; jeśli treść krytyczna ładuje się asynchronicznie na kliencie, włącz tryb JavaScript i zweryfikuj, że HTML ostatecznie zawiera pełną treść.

Dobrym uzupełnieniem jest monitoring nagłówków HTTP (np. przez narzędzia typu cURL lub przeglądarkowe DevTools), aby sprawdzać spójność kodów 2xx/3xx/4xx, dyrektywy cache i ewentualne X-Robots-Tag.

Meta robots, X-Robots-Tag, statusy 200/301/404/410

Kontrola widoczności odbywa się na dwóch poziomach: w znacznikach meta na stronie oraz w nagłówkach HTTP. Meta robots jest wygodne, gdy ustawiasz reguły per-widok w generateMetadata albo w Head; X-Robots-Tag w nagłówkach sprawdza się przy blokowaniu plików binarnych lub całych wzorców URL na poziomie serwera/CDN. Zawsze weryfikuj, że strona z noindex nie jest jednocześnie kanonikalizowana do innej – to sprzeczne sygnały. Jeśli zasób został trwale usunięty, preferuj 410 nad 404; przy migracjach trzymaj trwałe 308/301. Miękkie 404 (200 z egzotycznym komunikatem) ograniczaj, korzystając z notFound() i spójnych layoutów błędów.

W kontekście budżetu skanowania unikaj wielokrotnych skoków 3xx i przekierowań warunkowych. Sprawdzaj, czy trailing slash nie generuje bliźniaczych wariantów 200/200, oraz czy parametry śledzące (utm) nie tworzą indeksowalnych kopii – tu pomocne są reguły w Search Console i kanonikalizacja.

Sitemapy w Next.js: app/sitemap.ts i narzędzia wspierające

Plik sitemap.xml to drogowskaz dla robotów, ale nie gwarancja indeksu. W App Routerze możesz utworzyć app/sitemap.ts, który zwróci listę adresów z datami modyfikacji, priorytetami i częstotliwością zmian. To dobre miejsce, by konsolidować źródła danych (CMS, baza, pliki) i filtrować tylko indeksowalne adresy. Dla rozbudowanych serwisów rozważ stronicowane sitemapy i indeks map (sitemap_index.xml). Alternatywą lub uzupełnieniem jest biblioteka next-sitemap, która automatyzuje generację podczas builda oraz obsługę wielojęzyczności i obrazów.

Sitemapy powinny odzwierciedlać kanoniczne wersje URL i nie zawierać stron noindex, 3xx ani 4xx. Po wdrożeniu zawsze dodaj lokalizację sitemapy do robots.txt i zgłoś ją w panelu narzędzi dla webmasterów, aby przyspieszyć przetwarzanie.

Kanoniczne adresy, duplikaty, paginacja i hreflang

Link rel=”canonical” to klucz dla konsolidacji sygnałów. W Next.js definiuj kanonikale centralnie, tak by każdy widok (również warianty filtrów i sortowań) wskazywał na właściwy URL podstawowy. Paginacja może używać rel=”prev/next” dla poprawy nawigacji, ale priorytetem pozostaje kanonikale i unikalność treści na stronach z kolejnymi numerami. W środowiskach wielojęzycznych implementuj hreflang – w App Routerze zrobisz to w generateMetadata lub layout, pilnując spójnych map język–region. Zła konfiguracja hreflang potrafi wykluczyć ważne strony z indeksu, jeśli wzajemne referencje nie są pełne i symetryczne.

Testy i inspekcja renderingu

Sprawdzanie HTML po prerenderze i w czasie rzeczywistym

Audyt SEO powinien rozróżniać HTML generowany w buildzie i w czasie żądania. Używaj wyjścia z next build oraz inspekcji HTML dostarczanego przez serwer (zakładka Network). Sprawdź, czy krytyczne elementy – tytuł, opis, kanoniczne linki, dane strukturalne – istnieją bez konieczności uruchamiania klienta. Dla ISR porównaj pierwsze i zrewalidowane wersje, aby wykluczyć dryf metadanych. W Pages Routerze weryfikuj next/head; w App Routerze generateMetadata i domyślne metadata w layoutach.

Porównuj dokumenty w ujęciu „raw HTML” vs „rendered DOM” w narzędziach crawlerów. Jeśli treść o wysokiej wartości pojawia się dopiero po żądaniach XHR, rozważ przesunięcie jej do warstwy serwerowej lub SSR/ISR. Unikaj blokad indeksacji poprzez lazy-loading krytycznych linków bez elementu href w HTML początkowym.

Renderowanie na Edge/Node, cache i revalidate

W App Routerze możesz określić runtime (Node/Edge). Edge redukuje opóźnienia, ale ma ograniczenia środowiskowe. Z perspektywy robotów istotny jest deterministyczny czas odpowiedzi i brak wariantów HTML zależnych od niestabilnych sygnałów (np. geolokalizacja bez stałego wzorca URL). Ustalaj revalidate zarówno liczbowo, jak i przy użyciu tagów i revalidatePath dla aktualizacji krytycznych stron. Nagłówki Cache-Control na poziomie CDN muszą być spójne z polityką ISR, inaczej robot może konsumować przeterminowane wersje lub wpaść w pętle 304.

W testach porównuj: TTFB, konsystencję ETag/Last-Modified, różnice między środowiskami (staging/production). Niekontrolowany alternatywny cache (service worker) nie powinien modyfikować dokumentów HTML widzianych przez roboty.

Testy E2E z Playwright/Cypress pod SEO

Scenariusze E2E mogą asertywnie kontrolować metadane i kody odpowiedzi. Twórz testy, które odwiedzają najważniejsze adresy, sprawdzają tytuł, opis, kanonikale, nagłówki HTTP i obecność kluczowych fragmentów treści. Dla tras dynamicznych generuj zbiory przypadków z CMS lub bazy. W App Routerze testuj również ścieżki błędów (notFound, error) i przejścia między segmentami. Integruj te testy w CI, aby każda regresja SEO była wykrywana przed wdrożeniem.

Uzupełnij E2E o snapshoty HTML, które wykryją zmiany w strukturze dokumentu po modyfikacjach layoutu. W aplikacjach z międzynarodowością asertywnie sprawdzaj tagi językowe, atrybut lang na html oraz zestawy linków hreflang.

Performance a crawlability: prefetch, linkowanie wewnętrzne

Optymalizacja wydajności pośrednio wspiera techniczne SEO. next/link z prefetch potrafi ładować zasoby zanim użytkownik kliknie, co poprawia UX i metryki, lecz dla robotów ważniejsza jest czytelna siatka linków. Dbaj, by kluczowe strony były osiągalne kilkoma kliknięciami z nawigacji, a elementy nawigacyjne nie były renderowane warunkowo dopiero po interakcji. Unikaj linków ukrytych w komponentach bez atrybutu href na starcie – crawler może je pominąć. Zadbaj o lazy-loading grafik i krytyczne CSS, ale nie ofiarowuj tekstu zastępczego w sposób, który tworzy błąd widoczności treści przy pierwszym malowaniu.

Kontrola robots i metadanych w Next.js

API metadata w App Router i next/head w Pages

App Router upraszcza definiowanie metadanych: eksportuj obiekt metadata lub funkcję generateMetadata per segment. W jednym miejscu ustawisz tytuł, opis, kanonikale, og:meta, ikony oraz pliki specjalne. W Pages Routerze korzystaj z next/head i własnych komponentów Head, pamiętając o eliminacji duplikatów. Ważne, by każdy typ strony (lista, detal, error, paginacja) miał własną politykę tagów, a treści o niskiej wartości – noindex lub kanonikale do wariantu podstawowego. Dokumentuj zasady, by przy rozbudowie nie wprowadzić niespójności.

Spójność metadanych testuj automatycznie: narzędzia do linters, E2E i snapshoty powinny wychwytywać brak kanonikala lub niepoprawne tytuły. W systemach headless CMS przenoś walidacje na poziom schematów pól.

robots.txt, blokady zasobów i noindex na środowiskach testowych

Plik robots.txt jest bramką dla crawlerów: zezwala i zabrania skanowania ścieżek, podaje lokalizację sitemapy. W App Routerze stworzysz go w app/robots.ts, dzięki czemu jeden plik kontroluje zasady dla stagingu i produkcji w zależności od domeny. Na środowiskach testowych używaj globalnego Disallow i nagłówków autoryzacji, albo X-Robots-Tag: noindex, nofollow. Nie publikuj scenariuszy rewritów, które omijają blokady. Unikaj blokowania zasobów CSS/JS istotnych dla renderingu – Google potrzebuje ich, by zrozumieć layout i lazy-loading.

Każdą zmianę w robots.txt loguj i wersjonuj; drobna literówka w dyrektywie potrafi wyłączyć z indeksu kluczowy dział na tygodnie.

Dane strukturalne i headery HTTP

Schema.org w formie JSON-LD wzmacnia zrozumienie treści przez roboty. W Next.js wstrzykuj skrypty danych na serwerze, by były obecne w HTML inicjalnym. Dostosuj typ schematu do treści (Article, Product, BreadcrumbList, FAQPage) i weryfikuj w narzędziach testujących. Na poziomie nagłówków HTTP stosuj Content-Language, odpowiednie typy MIME, a dla multimediów – alternatywy tekstowe. Do kontrolowania indeksacji alternatywnie używaj X-Robots-Tag; dla zasobów generowanych dynamicznie ustawiaj poprawne cache i Vary, aby nie mieszać wariantów językowych czy urządzeń.

Pamiętaj, że dane strukturalne nie zastępują treści: muszą odzwierciedlać to, co faktycznie znajduje się w widocznym HTML, inaczej grożą ręczne działania.

Międzynarodowe SEO: hreflang i lokalizacje

Wielojęzyczność najlepiej realizować przez stabilne wzorce URL (np. /pl/, /en/). Zadbaj o spójne mapy hreflang między wszystkimi wariantami i o element x-default wskazujący domyślny dokument. W Next.js konfigurowanie i18n w next.config oraz centralizacja generowania linków językowych ograniczają ryzyko rozjazdów. Testuj, że przekierowania geolokalizacyjne nie naruszają kanonikalizacji (używaj preferencji użytkownika i nagłówków, a nie twardych redirectów 3xx bez możliwości wyboru). W sitemapach możesz dodać adnotacje językowe, dzięki czemu roboty szybciej zrozumieją relacje między wariantami.

Strategia zarządzania mapą adresów i stabilnością URL

Stabilność wzorców URL i migracje

Każda zmiana ścieżek to operacja ryzyka. Projektuj wzorce URL z myślą o przyszłości: krótkie, opisowe, bez elementów implementacyjnych. Przed migracją z Pages do App Routera przygotuj mapę 1:1 i przetestuj przekierowania 308 na środowisku tymczasowym. Po wdrożeniu monitoruj raporty w Search Console, logi i metryki wejść organicznych. Jeśli zmieniasz trailingSlash lub basePath, traktuj to jak migrację całej domeny. W przypadku dużych serwisów rozważ etapowanie i kanonikalizację przejściową, ale unikaj długoterminowych łańcuchów przekierowań.

Stabilność to nie tylko ścieżki – także parametry zapytań i identyfikatory. Używaj slugów przyjaznych człowiekowi, a identyfikatory numeryczne trzymaj w tle lub w patternach zgodnych z kanonikalizacją.

Parametry query vs ścieżki i faceting

Filtry powinny działać bez generowania oceanów indeksowalnych wariantów. Dla facetów bez unikalnej wartości informacyjnej używaj noindex i/lub kanonikala do wersji bazowej. Jeśli filtry mają znaczenie (np. unikalne kolekcje), rozważ ich przeniesienie do ścieżek, lecz tylko z jasnym schematem i kontrolą kombinacji. W Next.js unikaj linkowania do gołych parametrów śledzących; dodawaj reguły, które wycinają z sitemapy i z linkowania wewnętrznego adresy z UTM czy fbclid. Pamiętaj, że roboty potrafią eksplorować formularze – nie wystawiaj linków do generowania bezużytecznych wariantów.

Kanony paginacji, sortowania, filtrów

Stronicowanie musi wspierać eksplorację robotów, ale nie rozcieńczać sygnałów. Stosuj kanonikale do siebie samych dla każdej strony w paginacji, o ile treść jest unikalna; wersję bez parametru page traktuj jako stronę pierwszą. Dla sortowań zwykle preferowany jest kanonikalny wariant domyślny; warianty użytkowe noindex. W listach zapewnij silne linkowanie do kluczowych podstron produktowych/artykułów, aby roboty nie utknęły w stronicowaniu. W Next.js generuj stabilne parametry page i sort oraz waliduj ich zakresy, by uniknąć pustych stron 200, które przypominają soft-404.

Obsługa błędów: 404, 410, 451 i soft-404

Dobry system błędów to podstawa zdrowej indeksacji. notFound() w App Routerze powinien zwracać klarowny 404 bez bocznych przekierowań. Usunięte na stałe treści zgłaszaj jako 410, z proaktywnym usuwaniem z sitemapy. Treści ograniczone prawnie mogą korzystać z 451. Unikaj stron 200 z komunikatem „brak wyników” – jeżeli strona nie ma wartości, lepszy jest 404/410. W logach i raportach monitoruj wzrost 4xx/5xx; skoki zwykle oznaczają błędy w rewritach lub regresje w generowaniu dynamicznych segmentów. Rozważ też wprowadzenie strony 429 z limitami antybotowymi, ale nie stosuj jej na ścieżkach istotnych dla robotów wyszukiwarek.

Utrzymuj spójne kody odpowiedzi dla tych samych warunków.
Dbaj o jasne komunikaty dla użytkownika i robotów jednocześnie.
Automatyzuj usuwanie z sitemapy zasobów 404/410.
Alertuj na soft-404 wykryte przez raporty w panelach wyszukiwarek.