Log file analysis to zaawansowana technika SEO pozwalająca zrozumieć, jak Googlebot crawluje Twoją stronę. Przewodnik od podstaw do analizy.
Czym jest log file analysis
Analiza logów serwera to badanie zapisów każdego żądania HTTP do Twojego serwera. Pozwala zobaczyć:
- Które strony crawluje Googlebot
- Jak często odwiedza poszczególne URL
- Jakie błędy napotyka
- Ile crawl budgetu marnujesz
Format logów serwera
Typowy wpis w logu Apache/Nginx:
66.249.66.1 - - [08/Dec/2024:10:15:32 +0000] "GET /products/shoes HTTP/1.1" 200 15234 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
| Element | Znaczenie |
|---|---|
| 66.249.66.1 | IP (Google IP range) |
| [08/Dec/2024:10:15:32] | Data i czas |
| GET /products/shoes | Metoda i URL |
| 200 | Status code |
| 15234 | Rozmiar odpowiedzi (bytes) |
| Googlebot/2.1 | User agent |
Jak pozyskać logi
Hosting tradycyjny
- cPanel → Raw Access Logs
- SSH:
/var/log/apache2/access.log - FTP: folder /logs/
Cloudflare/CDN
- Cloudflare Logs (Enterprise)
- Cloudflare Workers dla logowania
Shopify
"Shopify nie udostępnia raw server logs. Użyj server-side analytics lub Cloudflare w trybie proxy."
Narzędzia do analizy
| Narzędzie | Typ | Cena |
|---|---|---|
| Screaming Frog Log Analyzer | Desktop | $99/rok |
| JetOctopus | Cloud | Od $60/mies. |
| Oncrawl | Cloud | Od $69/mies. |
| GoAccess | CLI (free) | Free |
| ELK Stack | Self-hosted | Free/Enterprise |
Kluczowe metryki do analizy
1. Crawl frequency
- Ile razy Googlebot odwiedza stronę dziennie
- Które sekcje są crawlowane najczęściej
- Czy ważne strony są pomijane
2. Crawl budget waste
Procent crawl budgetu marnowany na:
- Strony z parametrami (?sort=, ?filter=)
- Paginacja
- Duplikaty
- Zasoby statyczne (CSS, JS, images)
3. Response codes
| Status | Znaczenie | Akcja |
|---|---|---|
| 200 | OK | Dobrze |
| 301/302 | Redirect | Uprość redirect chains |
| 404 | Not found | Napraw lub redirect |
| 500 | Server error | Fix immediately |
| 503 | Service unavailable | Sprawdź server load |
Identyfikacja Googlebota
User-agents Google:
-
Googlebot/2.1- główny crawler -
Googlebot-Image- crawler obrazów -
Googlebot-Video- crawler video -
Googlebot-News- Google News -
APIs-Google- Google APIs
Weryfikacja IP:
host 66.249.66.1
# Powinno zwrócić: crawl-66-249-66-1.googlebot.com
Typowe problemy do wykrycia
- Infinite crawl traps - kalendarze, faceted navigation
- Thin content crawled frequently - parametry, tagi
- Important pages crawled rarely - głębokie produkty
- Slow response times - >500ms = problem
- High error rates - >1% błędów 5xx
Action plan po analizie
- Zablokuj crawl waste w robots.txt
- Dodaj canonical do duplikatów
- Popraw internal linking do ważnych stron
- Napraw błędy 4xx i 5xx
- Optymalizuj response time
Podsumowanie
Log file analysis to jedyny sposób na zobaczenie rzeczywistego zachowania Googlebota. Dla dużych stron to must-have w arsenale SEO.