Crawl budget to jeden z najbardziej niezrozumianych konceptow w SEO technicznym. Dla malych stron jest nieistotny, ale dla sklepow z tysiacami produktow moze decydowac o tym, czy Google w ogole znajdzie Twoje nowe strony. Poznaj, jak nie marnowac zasobow Googlebota.
Co to jest crawl budget i dlaczego wiekszosci stron nie powinno to obchodzic
Crawl budget to liczba stron, ktore Googlebot moze i chce przeszukac w Twojej witrynie w okreslonym czasie. Sklada sie z dwoch elementow:
- Crawl rate limit - maksymalna liczba rownoczesnych polaczen i opoznienie miedzy requestami, ktore Googlebot moze wykonac bez przeciazenia serwera
- Crawl demand - jak bardzo Google "chce" crawlowac Twoja strone (zalezne od popularnosci, swiezosci i jakosci contentu)
Google oficjalnie przyznaje: crawl budget nie jest problemem dla wiekszosci stron. Jezeli masz mniej niz 10 000 URL-i i Twoj serwer odpowiada szybko, prawdopodobnie nie musisz sie tym martwic.
Kiedy crawl budget staje sie problemem
| Rozmiar strony | Crawl budget problem? | Priorytet optymalizacji |
|---|---|---|
| Do 1 000 URL | Nie | Niski - skup sie na contencie |
| 1 000 - 10 000 URL | Rzadko | Sredni - monitoruj, nie optymalizuj na sile |
| 10 000 - 100 000 URL | Tak | Wysoki - aktywna optymalizacja wymagana |
| 100 000+ URL | Krytyczny | Krytyczny - bez optymalizacji strona nie bedzie indeksowana |
Typowe strony, gdzie crawl budget jest realnym problemem:
- Duze sklepy e-commerce - tysiace produktow, wariantow, filtrowanych widokow
- Serwisy ogloszeniowe - miliony dynamicznych stron
- Agregatory danych - ciagly przyrost nowych URL-i
- Strony z faceted navigation - filtry tworzace eksplozje kombinacji URL
Crawl Stats w Google Search Console - jak czytac te dane
Google Search Console oferuje raport Crawl Stats (Ustawienia > Statystyki indeksowania), ktory pokazuje jak Googlebot widzi Twoja strone. Oto co powinienes analizowac:
Kluczowe metryki
| Metryka | Co oznacza | Zdrowa wartosc |
|---|---|---|
| Total crawl requests | Ile razy Googlebot odwiedzil strone | Stabilny lub rosnacy trend |
| Total download size | Ile danych Googlebot pobral | Proporcjonalny do liczby requestow |
| Average response time | Sredni czas odpowiedzi serwera | Ponizej 500ms |
| Host status | Czy serwer odpowiada prawidlowo | Brak bledow |
Czerwone flagi w Crawl Stats
- Spadek crawl requests - Google stracil zainteresowanie strona lub napotkal problemy
- Response time powyzej 1s - serwer jest zbyt wolny, Googlebot ograniczy crawlowanie
- Duzo requestow na nieistotne URL-e - marnujesz crawl budget na smieci
- Wysoki procent bledow 5xx - problemy serwerowe, ktore obnizaja crawl rate
W sekcji "Crawl requests breakdown" sprawdz, jakie typy stron Googlebot crawluje najczesciej. Jezeli top 10 to strony filtrowane, parametryzowane lub inne "smieci" - masz problem.
Najwieksze zrodla marnotrawstwa crawl budget
Oto co najczesciej "zjada" crawl budget bez zadnej wartosci SEO:
1. Faceted navigation (filtry)
Sklep z 1000 produktow i 10 filtrami (kolor, rozmiar, cena, marka...) moze wygenerowac miliony kombinacji URL:
/collections/buty /collections/buty?filter.color=czerwony /collections/buty?filter.color=czerwony&filter.size=42 /collections/buty?filter.color=czerwony&filter.size=42&filter.price=100-200 /collections/buty?filter.color=czerwony&filter.size=42&filter.price=100-200&filter.brand=nike ... i tak dalej
Kazda kombinacja to potencjalnie osobny URL do crawlowania. Google widzi je wszystkie.
2. Parametry sortowania i paginacji
URL-e typu:
?sort_by=price-ascending?sort_by=price-descending?sort_by=best-selling-
?page=2,?page=3, ...?page=100
To te same produkty w innej kolejnosci. Google crawluje je wszystkie, ale nie powinien.
3. Wewnetrzne wyszukiwanie
URL-e typu /search?q=buty, /search?q=buty+czerwone tworza nieskonczona liczbe stron. Kazde zapytanie uzytkownika = nowy URL do indeksacji.
4. Sesje i parametry sledzace
Parametry typu:
?sessionid=abc123?utm_source=facebook&utm_medium=cpc?ref=homepage
Tworza duplikaty kazdej strony - ten sam content pod wieloma URL-ami.
5. Infinite scroll i AJAX
Strony z nieskonczoym przewijaniem czesto generuja URL-e dla kazdego "doladowania" contentu. Googlebot moze utknac w petli.
Tabela: Co marnuje vs co oszczedza crawl budget
| Marnuje crawl budget | Oszczedza crawl budget |
|---|---|
| Faceted navigation bez ograniczen | Faceted navigation z noindex lub robots.txt |
| Parametry sortowania indeksowane | Parametry sortowania w robots.txt Disallow |
| Wewnetrzne wyszukiwanie indeksowane | /search/* zablokowane w robots.txt |
| Parametry UTM bez canonical | Canonical na czysty URL bez parametrow |
| Paginacja bez rel="canonical" | Canonical na strone 1 lub self-referencing |
| Stare, nieaktualne strony | Usuniecie lub przekierowanie 301 |
| Duplicate content | Canonical lub 301 redirect |
| Wolny serwer (>1s) | Szybki serwer (<500ms) |
| Redirect chains (301 > 301 > 301) | Bezposrednie linki do finalnych URL |
| Soft 404 (200 dla pustych stron) | Prawidlowe kody 404 lub 410 |
Praktyczne metody optymalizacji crawl budget
1. Robots.txt - pierwsza linia obrony
Robots.txt to najszybszy sposob na zablokowanie marnowania crawl budget. Googlebot respektuje te dyrektywy zanim sprobuje crawlowac URL.
User-agent: * # Blokuj parametry sortowania Disallow: /*?*sort_by= # Blokuj filtry Disallow: /*?*filter. # Blokuj wewnetrzne wyszukiwanie Disallow: /search Disallow: /search?* # Blokuj koszyk i checkout Disallow: /cart Disallow: /checkout # Blokuj konta uzytkownikow Disallow: /account # Blokuj paginacje powyzej strony 10 (opcjonalnie) # Disallow: /*?page=1[0-9] # Disallow: /*?page=[2-9][0-9]
Uwaga: Robots.txt blokuje crawlowanie, ale nie indeksowanie. Jezeli strona ma backlinki, Google moze ja zaindeksowac bez crawlowania. Dla pelnej kontroli uzyj noindex.
2. Meta robots noindex - pelna kontrola
Tag <meta name="robots" content="noindex, follow"> mowi Google:
- noindex - nie indeksuj tej strony
- follow - ale podazaj za linkami na niej (przekazuj PageRank)
Uzyj na stronach filtrowanych, paginowanych i innych "technicznych" URL-ach:
{% if request.path contains 'filter.' or request.path contains 'sort_by=' %}
<meta name="robots" content="noindex, follow">
{% endif %}
3. Canonical tags - wskazywanie glownej wersji
Tag <link rel="canonical" href="..."> mowi Google, ktora wersja URL jest "glowna". Wszystkie warianty (z parametrami, sortowaniem) powinny wskazywac na czysty URL:
<!-- Na stronie /collections/buty?sort_by=price-ascending --> <link rel="canonical" href="https://example.com/collections/buty">
Shopify automatycznie dodaje canonical tags, ale sprawdz czy dzialaja prawidlowo dla Twoich filtrow.
4. Sitemap.xml - pokaz Google co jest wazne
Sitemap to lista priorytetowych URL-i. Umieszczaj tam tylko strony, ktore chcesz indeksowac:
- Strony produktow (bez wariantow jako osobnych URL)
- Strony kategorii (bez filtrowanych wersji)
- Artykuly blogowe
- Strony informacyjne
Nigdy nie umieszczaj w sitemap: stron z noindex, przekierowywanych, zablokowanych w robots.txt.
5. Optymalizacja serwera
Im szybciej serwer odpowiada, tym wiecej Google moze crawlowac. Kluczowe metryki:
| Metryka | Cel | Jak osiagnac |
|---|---|---|
| Time to First Byte (TTFB) | < 200ms | CDN, cache, szybki hosting |
| Response time | < 500ms | Optymalizacja bazy danych, cache |
| Uptime | > 99.9% | Niezawodny hosting, monitoring |
6. Internal linking - kieruj Googlebota
Linki wewnetrzne mowia Google, ktore strony sa wazne. Jezeli linkujesz do stron filtrowanych z glownej nawigacji, Google bedzie je intensywnie crawlowal.
- Linkuj do kanonicznych URL - nie do wersji z parametrami
- Usun linki do stron z noindex - po co kierowac Googlebota do slepych uliczek?
- Uzyj rel="nofollow" dla linkow do stron technicznych (logowanie, koszyk)
Crawl budget w Shopify - specyficzne wyzwania
Shopify ma swoje unikalne problemy z crawl budget:
1. Warianty produktow
Kazdy wariant moze miec osobny URL (?variant=123456). W sklepie z 500 produktami i 5 wariantami kazdy = 2500 URL-i.
Rozwiazanie: Canonical na glowny produkt (Shopify robi to automatycznie).
2. Collections z filtrami
Shopify Online Store 2.0 ma natywne filtry, ktore generuja URL-e typu ?filter.v.option.color=Red.
Rozwiazanie: Dodaj do robots.txt:
Disallow: /*?*filter. Disallow: /*?*sort_by=
3. Preview links
URL-e typu ?preview_theme_id= moga byc crawlowane. Zablokuj w robots.txt.
4. Tagi jako kolekcje
URL-e /collections/all/tag tworza dodatkowe strony. Rozważ noindex dla rzadko uzywanych tagow.
Monitorowanie i iteracja
Optymalizacja crawl budget to proces ciagly. Monitoruj:
- Co tydzien: Crawl Stats w GSC - szukaj anomalii
- Co miesiac: Crawl z narzedzi (Screaming Frog) - porownuj z poprzednim
- Co kwartal: Audyt robots.txt i noindex - czy wszystko nadal aktualne?
Crawl budget to nie problem do "rozwiazania" raz na zawsze. To ciagla gra w optymalizacje, gdzie Twoim celem jest przekierowanie zasobow Googlebota na strony, ktore generuja ruch i konwersje.
Komentarz autora: W praktyce, 90% sklepow Shopify nie ma problemu z crawl budget - ich problem to raczej brak contentu wartego crawlowania. Ale dla tych 10% z tysiacami produktow i rozbudowanymi filtrami, optymalizacja crawl budget moze byc roznica miedzy indeksacja w 2 dni a indeksacja w 2 miesiace. W audytach SEO zawsze sprawdzam Crawl Stats jako jeden z pierwszych raportow - mowi mi, jak Google widzi strone i gdzie marnuje zasoby.
Sprawdz, czy Twoja strona marnuje crawl budget
W ramach Audytu SEO analizuje Crawl Stats, identyfikuje zrodla marnotrawstwa i dostarczam konkretne rekomendacje naprawy robots.txt, canonical i struktury URL.
Zamow Audyt SEO ->
O autorze
Arkadiusz Kotlinski
CEO & Ekspert SEO w ASEO24.pl. 10+ lat doswiadczenia w pozycjonowaniu, e-commerce i digital marketingu. Specjalizuje sie w SEO technicznym, LLM Feed i strategiach wzrostu dla sklepow Shopify.