Czym jest crawl budget?

Crawl budget (budżet crawlowania) to liczba stron, które Googlebot może i chce przeskanować na Twojej witrynie w danym okresie. Google ma ograniczone zasoby i nie może przeskanować całego internetu jednocześnie — dlatego przydziela każdej witrynie określony budżet na crawlowanie.

Crawl budget jest szczególnie istotny dla dużych witryn (tysiące lub miliony stron). Dla małych stron (do kilkuset podstron) zazwyczaj nie stanowi problemu — Google bez trudu przeskanuje całą witrynę.

Jak działa crawl budget?

Crawl budget składa się z dwóch komponentów:

Crawl capacity limit (limit wydajności)

To maksymalna liczba jednoczesnych połączeń, które Googlebot może nawiązać z Twoim serwerem bez obciążania go. Google automatycznie zmniejsza intensywność crawlowania, gdy:

Serwer odpowiada wolno (wysoki TTFB)
Serwer zwraca błędy 5xx
Właściciel witryny ograniczył crawlowanie w robots.txt (Crawl-delay)

Crawl demand (zapotrzebowanie na crawlowanie)

To zainteresowanie Google przeskanowaniem Twojej witryny, zależne od:

Popularność URL-i — strony z większą liczbą backlinków i ruchu są crawlowane częściej
Świeżość — strony aktualizowane regularnie mają wyższy priorytet
Typ treści — nowe URL-e odkryte w sitemap lub linkach są crawlowane priorytetowo

Dlaczego crawl budget jest ważny?

Jeśli Googlebot wyczerpie crawl budget na nieistotnych stronach (duplikaty, parametry URL, strony błędów), może nie dotrzeć do Twoich najważniejszych treści — artykułów, stron usługowych, nowych produktów.

Konsekwencje problemów z crawl budget:

Opóźnione indeksowanie nowych treści — artykuły blogowe pojawiają się w Google po dniach lub tygodniach zamiast godzin (zobacz jak przyspieszyć indeksowanie w Google)
Nieaktualne dane w indeksie — zmiany na istniejących stronach nie są odzwierciedlane w wynikach wyszukiwania
Nieindeksowane strony — część witryny może nigdy nie zostać przeskanowana

Kiedy crawl budget jest problemem?

Witryna ma więcej niż 10 000 stron
Witryna generuje dużo duplikatów (parametry URL, filtry, sortowanie)
Serwer jest wolny lub niestabilny
Witryna ma głęboką architekturę — strony dostępne po wielu kliknięciach
Duża część witryny zwraca błędy 404 lub 5xx

Jak optymalizować crawl budget?

Eliminacja marnowania budżetu

Usuń lub zblokuj duplikaty — parametry URL, sortowania, filtry powinny mieć canonical lub noindex (więcej technik w checkliście SEO technicznego)
Napraw błędy 404 i 5xx — każdy request na stronę z błędem to zmarnowany crawl
Ogranicz paginację — setki stron /page/2, /page/3 marnują budżet
Blokuj zasoby nieistotne — strony administratorskie, wyniki wyszukiwania wewnętrznego, koszyk

Poprawa efektywności crawlowania

Aktualizuj sitemap.xml — przesyłaj aktualną mapę strony w Google Search Console
Zoptymalizuj robots.txt — blokuj crawlowanie sekcji, które nie powinny być indeksowane
Stosuj płaską architekturę — każda ważna strona powinna być dostępna w max. 3 kliknięciach od strony głównej
Linkuj wewnętrznie — nowe strony powinny być połączone z istniejącymi treściami

Poprawa szybkości serwera

Zoptymalizuj TTFB — czas odpowiedzi serwera poniżej 200ms
Rozważ SSG — statyczne pliki są serwowane błyskawicznie
Używaj CDN — skraca czas odpowiedzi dla crawlerów
Monitoruj logi serwera — analizuj, jak Googlebot crawluje Twoją witrynę

Jak monitorować crawl budget?

Google Search Console — raport „Statystyki indeksowania" pokazuje liczbę crawlowanych stron, czas odpowiedzi i błędy
Logi serwera — bezpośrednia analiza requestów Googlebota (user-agent: Googlebot)
Screaming Frog — symulacja crawlowania i identyfikacja problemów
Robots.txt tester — weryfikacja, czy reguły blokowania są poprawne

Przykład

Sklep e-commerce ma 5000 produktów, ale generuje 50 000 URL-i przez parametry filtrowania (kolor, rozmiar, cena, sortowanie). Googlebot crawluje głównie strony z filtrami, ignorując nowe produkty. Po wdrożeniu canonical URL na parametryzowanych stronach, noindex na stronach filtrów i aktualizacji sitemap, Google zaczyna indeksować nowe produkty w ciągu 24 godzin zamiast 2 tygodni.

Powiązane pojęcia

Indeksowanie — proces zapisu strony w indeksie Google, zależny od crawl budget
Crawlability — zdolność crawlerów do przechodzenia przez witrynę
Robots.txt — plik kontrolujący dostęp crawlerów
Sitemap — mapa strony ułatwiająca crawlowanie
Canonical URL — znacznik zapobiegający marnowaniu crawl budget na duplikaty

Crawl budget — czym jest budżet crawlowania?