Dla dużych stron (>10,000 URL) crawl budget to krytyczny czynnik SEO. Przewodnik po optymalizacji crawlowania przez Googlebot.
Czym jest crawl budget
Crawl budget to liczba stron, które Googlebot może i chce crawlować na Twojej stronie w danym czasie. Składa się z:
- Crawl rate limit - ile Googlebot MOŻE crawlować bez przeciążenia serwera
- Crawl demand - ile Googlebot CHCE crawlować (popularity + freshness)
Kiedy crawl budget ma znaczenie
| Rozmiar strony | Znaczenie crawl budget |
|---|---|
| <10,000 URL | Minimalne - Google zazwyczaj crawluje wszystko |
| 10,000-100,000 URL | Średnie - warto optymalizować |
| 100,000-1M URL | Wysokie - kluczowe dla SEO |
| >1M URL | Krytyczne - wymaga strategii |
Czynniki marnujące crawl budget
1. Parametry URL
"Faceted navigation może generować miliony URL-i z tym samym contentem." - Google Search Central
Problematyczne parametry:
- ?sort=price-asc
- ?filter=color-red
- ?page=1&limit=20
- ?utm_source=google
2. Duplicate content
- HTTP vs HTTPS
- www vs non-www
- Trailing slash variations
- Session IDs w URL
3. Soft 404s
Strony zwracające 200 OK ale bez treści.
4. Redirect chains
A → B → C → D zamiast A → D
5. Hacked/spam pages
Malware generujący tysiące spamowych stron.
Techniki optymalizacji
1. Robots.txt
# Blokuj parametry sortowania
Disallow: /*?sort=*
Disallow: /*?filter=*
Disallow: /*&sort=*
Disallow: /*&filter=*
# Blokuj admin i internal
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
2. Canonical tags
Na stronach z parametrami:
<link rel="canonical" href="https://example.com/products/shoes">
3. Meta noindex
Dla stron, które nie powinny być w indeksie:
<meta name="robots" content="noindex, follow">
4. XML Sitemap optimization
- Tylko kanoniczne, indexable URL
- Usuń 404, redirects, noindex
- Aktualizuj lastmod tylko przy real changes
- Segmentuj duże sitemaps
5. Internal linking
- Linkuj do ważnych stron z nawigacji
- Usuń linki do low-value pages
- Użyj nofollow dla "add to cart", login
Monitoring crawl budget
Google Search Console
Settings > Crawl stats:
- Total crawl requests
- Response codes breakdown
- File types crawled
- Crawl time trends
Server logs
Analizuj logi dla Googlebot:
- Które URL crawlowane najczęściej
- Które sekcje pomijane
- Crawl waste (parametry, duplikaty)
Crawl budget dla e-commerce
Typowe problemy
- Faceted navigation - tysiące kombinacji filtrów
- Paginacja kategorii - /page/2/, /page/3/...
- Warianty produktów - ?color=red&size=M
- Out of stock pages - produkty niedostępne
Rozwiązania
| Problem | Rozwiązanie |
|---|---|
| Filtry | Robots.txt + canonical do czystego URL |
| Paginacja | rel=next/prev lub noindex page 2+ |
| Warianty | Canonical do głównego wariantu |
| Out of stock | Zachowaj, ale oznacz structured data |
Podsumowanie
Crawl budget optimization to must-have dla dużych stron. Focus na eliminacji waste (parametry, duplikaty) i priorytetyzacji ważnych stron.