17.12.2025#Crawl Budget

Crawl Budget Optimization - Kiedy Ma Znaczenie i Jak Nie Marnowac Zasobow Googlebota

Arkadiusz Kotlinski

Ekspert SEO

Spis tresci

Crawl budget to jeden z najbardziej niezrozumianych konceptow w SEO technicznym. Dla malych stron jest nieistotny, ale dla sklepow z tysiacami produktow moze decydowac o tym, czy Google w ogole znajdzie Twoje nowe strony. Poznaj, jak nie marnowac zasobow Googlebota.

Co to jest crawl budget i dlaczego wiekszosci stron nie powinno to obchodzic

Crawl budget to liczba stron, ktore Googlebot moze i chce przeszukac w Twojej witrynie w okreslonym czasie. Sklada sie z dwoch elementow:

Crawl rate limit - maksymalna liczba rownoczesnych polaczen i opoznienie miedzy requestami, ktore Googlebot moze wykonac bez przeciazenia serwera
Crawl demand - jak bardzo Google "chce" crawlowac Twoja strone (zalezne od popularnosci, swiezosci i jakosci contentu)

Google oficjalnie przyznaje: crawl budget nie jest problemem dla wiekszosci stron. Jezeli masz mniej niz 10 000 URL-i i Twoj serwer odpowiada szybko, prawdopodobnie nie musisz sie tym martwic.

Kiedy crawl budget staje sie problemem

Rozmiar strony	Crawl budget problem?	Priorytet optymalizacji
Do 1 000 URL	Nie	Niski - skup sie na contencie
1 000 - 10 000 URL	Rzadko	Sredni - monitoruj, nie optymalizuj na sile
10 000 - 100 000 URL	Tak	Wysoki - aktywna optymalizacja wymagana
100 000+ URL	Krytyczny	Krytyczny - bez optymalizacji strona nie bedzie indeksowana

Typowe strony, gdzie crawl budget jest realnym problemem:

Duze sklepy e-commerce - tysiace produktow, wariantow, filtrowanych widokow
Serwisy ogloszeniowe - miliony dynamicznych stron
Agregatory danych - ciagly przyrost nowych URL-i
Strony z faceted navigation - filtry tworzace eksplozje kombinacji URL

Crawl Stats w Google Search Console - jak czytac te dane

Google Search Console oferuje raport Crawl Stats (Ustawienia > Statystyki indeksowania), ktory pokazuje jak Googlebot widzi Twoja strone. Oto co powinienes analizowac:

Kluczowe metryki

Metryka	Co oznacza	Zdrowa wartosc
Total crawl requests	Ile razy Googlebot odwiedzil strone	Stabilny lub rosnacy trend
Total download size	Ile danych Googlebot pobral	Proporcjonalny do liczby requestow
Average response time	Sredni czas odpowiedzi serwera	Ponizej 500ms
Host status	Czy serwer odpowiada prawidlowo	Brak bledow

Czerwone flagi w Crawl Stats

Spadek crawl requests - Google stracil zainteresowanie strona lub napotkal problemy
Response time powyzej 1s - serwer jest zbyt wolny, Googlebot ograniczy crawlowanie
Duzo requestow na nieistotne URL-e - marnujesz crawl budget na smieci
Wysoki procent bledow 5xx - problemy serwerowe, ktore obnizaja crawl rate

W sekcji "Crawl requests breakdown" sprawdz, jakie typy stron Googlebot crawluje najczesciej. Jezeli top 10 to strony filtrowane, parametryzowane lub inne "smieci" - masz problem.

Najwieksze zrodla marnotrawstwa crawl budget

Oto co najczesciej "zjada" crawl budget bez zadnej wartosci SEO:

1. Faceted navigation (filtry)

Sklep z 1000 produktow i 10 filtrami (kolor, rozmiar, cena, marka...) moze wygenerowac miliony kombinacji URL:

/collections/buty
/collections/buty?filter.color=czerwony
/collections/buty?filter.color=czerwony&filter.size=42
/collections/buty?filter.color=czerwony&filter.size=42&filter.price=100-200
/collections/buty?filter.color=czerwony&filter.size=42&filter.price=100-200&filter.brand=nike
... i tak dalej

Kazda kombinacja to potencjalnie osobny URL do crawlowania. Google widzi je wszystkie.

2. Parametry sortowania i paginacji

URL-e typu:

?sort_by=price-ascending
?sort_by=price-descending
?sort_by=best-selling
?page=2, ?page=3, ... ?page=100

To te same produkty w innej kolejnosci. Google crawluje je wszystkie, ale nie powinien.

3. Wewnetrzne wyszukiwanie

URL-e typu /search?q=buty, /search?q=buty+czerwone tworza nieskonczona liczbe stron. Kazde zapytanie uzytkownika = nowy URL do indeksacji.

4. Sesje i parametry sledzace

Parametry typu:

?sessionid=abc123
?utm_source=facebook&utm_medium=cpc
?ref=homepage

Tworza duplikaty kazdej strony - ten sam content pod wieloma URL-ami.

5. Infinite scroll i AJAX

Strony z nieskonczoym przewijaniem czesto generuja URL-e dla kazdego "doladowania" contentu. Googlebot moze utknac w petli.

Tabela: Co marnuje vs co oszczedza crawl budget

Marnuje crawl budget	Oszczedza crawl budget
Faceted navigation bez ograniczen	Faceted navigation z noindex lub robots.txt
Parametry sortowania indeksowane	Parametry sortowania w robots.txt Disallow
Wewnetrzne wyszukiwanie indeksowane	/search/* zablokowane w robots.txt
Parametry UTM bez canonical	Canonical na czysty URL bez parametrow
Paginacja bez rel="canonical"	Canonical na strone 1 lub self-referencing
Stare, nieaktualne strony	Usuniecie lub przekierowanie 301
Duplicate content	Canonical lub 301 redirect
Wolny serwer (>1s)	Szybki serwer (<500ms)
Redirect chains (301 > 301 > 301)	Bezposrednie linki do finalnych URL
Soft 404 (200 dla pustych stron)	Prawidlowe kody 404 lub 410

Praktyczne metody optymalizacji crawl budget

1. Robots.txt - pierwsza linia obrony

Robots.txt to najszybszy sposob na zablokowanie marnowania crawl budget. Googlebot respektuje te dyrektywy zanim sprobuje crawlowac URL.

User-agent: *

# Blokuj parametry sortowania
Disallow: /*?*sort_by=

# Blokuj filtry
Disallow: /*?*filter.

# Blokuj wewnetrzne wyszukiwanie
Disallow: /search
Disallow: /search?*

# Blokuj koszyk i checkout
Disallow: /cart
Disallow: /checkout

# Blokuj konta uzytkownikow
Disallow: /account

# Blokuj paginacje powyzej strony 10 (opcjonalnie)
# Disallow: /*?page=1[0-9]
# Disallow: /*?page=[2-9][0-9]

Uwaga: Robots.txt blokuje crawlowanie, ale nie indeksowanie. Jezeli strona ma backlinki, Google moze ja zaindeksowac bez crawlowania. Dla pelnej kontroli uzyj noindex.

2. Meta robots noindex - pelna kontrola

Tag <meta name="robots" content="noindex, follow"> mowi Google:

noindex - nie indeksuj tej strony
follow - ale podazaj za linkami na niej (przekazuj PageRank)

Uzyj na stronach filtrowanych, paginowanych i innych "technicznych" URL-ach:

{% if request.path contains 'filter.' or request.path contains 'sort_by=' %}
  <meta name="robots" content="noindex, follow">
{% endif %}

3. Canonical tags - wskazywanie glownej wersji

Tag <link rel="canonical" href="..."> mowi Google, ktora wersja URL jest "glowna". Wszystkie warianty (z parametrami, sortowaniem) powinny wskazywac na czysty URL:

<!-- Na stronie /collections/buty?sort_by=price-ascending -->
<link rel="canonical" href="https://example.com/collections/buty">

Shopify automatycznie dodaje canonical tags, ale sprawdz czy dzialaja prawidlowo dla Twoich filtrow.

4. Sitemap.xml - pokaz Google co jest wazne

Sitemap to lista priorytetowych URL-i. Umieszczaj tam tylko strony, ktore chcesz indeksowac:

Strony produktow (bez wariantow jako osobnych URL)
Strony kategorii (bez filtrowanych wersji)
Artykuly blogowe
Strony informacyjne

Nigdy nie umieszczaj w sitemap: stron z noindex, przekierowywanych, zablokowanych w robots.txt.

5. Optymalizacja serwera

Im szybciej serwer odpowiada, tym wiecej Google moze crawlowac. Kluczowe metryki:

Metryka	Cel	Jak osiagnac
Time to First Byte (TTFB)	< 200ms	CDN, cache, szybki hosting
Response time	< 500ms	Optymalizacja bazy danych, cache
Uptime	> 99.9%	Niezawodny hosting, monitoring

6. Internal linking - kieruj Googlebota

Linki wewnetrzne mowia Google, ktore strony sa wazne. Jezeli linkujesz do stron filtrowanych z glownej nawigacji, Google bedzie je intensywnie crawlowal.

Linkuj do kanonicznych URL - nie do wersji z parametrami
Usun linki do stron z noindex - po co kierowac Googlebota do slepych uliczek?
Uzyj rel="nofollow" dla linkow do stron technicznych (logowanie, koszyk)

Crawl budget w Shopify - specyficzne wyzwania

Shopify ma swoje unikalne problemy z crawl budget:

1. Warianty produktow

Kazdy wariant moze miec osobny URL (?variant=123456). W sklepie z 500 produktami i 5 wariantami kazdy = 2500 URL-i.

Rozwiazanie: Canonical na glowny produkt (Shopify robi to automatycznie).

2. Collections z filtrami

Shopify Online Store 2.0 ma natywne filtry, ktore generuja URL-e typu ?filter.v.option.color=Red.

Rozwiazanie: Dodaj do robots.txt:

Disallow: /*?*filter.
Disallow: /*?*sort_by=

3. Preview links

URL-e typu ?preview_theme_id= moga byc crawlowane. Zablokuj w robots.txt.

4. Tagi jako kolekcje

URL-e /collections/all/tag tworza dodatkowe strony. Rozważ noindex dla rzadko uzywanych tagow.

Monitorowanie i iteracja

Optymalizacja crawl budget to proces ciagly. Monitoruj:

Co tydzien: Crawl Stats w GSC - szukaj anomalii
Co miesiac: Crawl z narzedzi (Screaming Frog) - porownuj z poprzednim
Co kwartal: Audyt robots.txt i noindex - czy wszystko nadal aktualne?

Crawl budget to nie problem do "rozwiazania" raz na zawsze. To ciagla gra w optymalizacje, gdzie Twoim celem jest przekierowanie zasobow Googlebota na strony, ktore generuja ruch i konwersje.

Komentarz autora: W praktyce, 90% sklepow Shopify nie ma problemu z crawl budget - ich problem to raczej brak contentu wartego crawlowania. Ale dla tych 10% z tysiacami produktow i rozbudowanymi filtrami, optymalizacja crawl budget moze byc roznica miedzy indeksacja w 2 dni a indeksacja w 2 miesiace. W audytach SEO zawsze sprawdzam Crawl Stats jako jeden z pierwszych raportow - mowi mi, jak Google widzi strone i gdzie marnuje zasoby.

Sprawdz, czy Twoja strona marnuje crawl budget

W ramach Audytu SEO analizuje Crawl Stats, identyfikuje zrodla marnotrawstwa i dostarczam konkretne rekomendacje naprawy robots.txt, canonical i struktury URL.

Zamow Audyt SEO ->

O autorze

Arkadiusz Kotlinski

CEO & Ekspert SEO w ASEO24.pl. 10+ lat doswiadczenia w pozycjonowaniu, e-commerce i digital marketingu. Specjalizuje sie w SEO technicznym, LLM Feed i strategiach wzrostu dla sklepow Shopify.

Wiecej o autorze LinkedIn