Przejdź do treści
ARDURA Lab
ARDURA Lab
·4 min

Crawl budget

Czym jest crawl budget?

Crawl budget (budżet crawlowania) to liczba stron, które Googlebot może i chce przeskanować na Twojej witrynie w danym okresie. Google ma ograniczone zasoby i nie może przeskanować całego internetu jednocześnie — dlatego przydziela każdej witrynie określony budżet na crawlowanie.

Crawl budget jest szczególnie istotny dla dużych witryn (tysiące lub miliony stron). Dla małych stron (do kilkuset podstron) zazwyczaj nie stanowi problemu — Google bez trudu przeskanuje całą witrynę.

Jak działa crawl budget?

Crawl budget składa się z dwóch komponentów:

Crawl capacity limit (limit wydajności)

To maksymalna liczba jednoczesnych połączeń, które Googlebot może nawiązać z Twoim serwerem bez obciążania go. Google automatycznie zmniejsza intensywność crawlowania, gdy:

  • Serwer odpowiada wolno (wysoki TTFB)
  • Serwer zwraca błędy 5xx
  • Właściciel witryny ograniczył crawlowanie w robots.txt (Crawl-delay)

Crawl demand (zapotrzebowanie na crawlowanie)

To zainteresowanie Google przeskanowaniem Twojej witryny, zależne od:

  • Popularność URL-i — strony z większą liczbą backlinków i ruchu są crawlowane częściej
  • Świeżość — strony aktualizowane regularnie mają wyższy priorytet
  • Typ treści — nowe URL-e odkryte w sitemap lub linkach są crawlowane priorytetowo

Dlaczego crawl budget jest ważny?

Jeśli Googlebot wyczerpie crawl budget na nieistotnych stronach (duplikaty, parametry URL, strony błędów), może nie dotrzeć do Twoich najważniejszych treści — artykułów, stron usługowych, nowych produktów.

Konsekwencje problemów z crawl budget:

  • Opóźnione indeksowanie nowych treści — artykuły blogowe pojawiają się w Google po dniach lub tygodniach zamiast godzin (zobacz jak przyspieszyć indeksowanie w Google)
  • Nieaktualne dane w indeksie — zmiany na istniejących stronach nie są odzwierciedlane w wynikach wyszukiwania
  • Nieindeksowane strony — część witryny może nigdy nie zostać przeskanowana

Kiedy crawl budget jest problemem?

  • Witryna ma więcej niż 10 000 stron
  • Witryna generuje dużo duplikatów (parametry URL, filtry, sortowanie)
  • Serwer jest wolny lub niestabilny
  • Witryna ma głęboką architekturę — strony dostępne po wielu kliknięciach
  • Duża część witryny zwraca błędy 404 lub 5xx

Jak optymalizować crawl budget?

Eliminacja marnowania budżetu

  • Usuń lub zblokuj duplikaty — parametry URL, sortowania, filtry powinny mieć canonical lub noindex (więcej technik w checkliście SEO technicznego)
  • Napraw błędy 404 i 5xx — każdy request na stronę z błędem to zmarnowany crawl
  • Ogranicz paginację — setki stron /page/2, /page/3 marnują budżet
  • Blokuj zasoby nieistotne — strony administratorskie, wyniki wyszukiwania wewnętrznego, koszyk

Poprawa efektywności crawlowania

  • Aktualizuj sitemap.xml — przesyłaj aktualną mapę strony w Google Search Console
  • Zoptymalizuj robots.txt — blokuj crawlowanie sekcji, które nie powinny być indeksowane
  • Stosuj płaską architekturę — każda ważna strona powinna być dostępna w max. 3 kliknięciach od strony głównej
  • Linkuj wewnętrznie — nowe strony powinny być połączone z istniejącymi treściami

Poprawa szybkości serwera

  • Zoptymalizuj TTFB — czas odpowiedzi serwera poniżej 200ms
  • Rozważ SSG — statyczne pliki są serwowane błyskawicznie
  • Używaj CDN — skraca czas odpowiedzi dla crawlerów
  • Monitoruj logi serwera — analizuj, jak Googlebot crawluje Twoją witrynę

Jak monitorować crawl budget?

  • Google Search Console — raport „Statystyki indeksowania" pokazuje liczbę crawlowanych stron, czas odpowiedzi i błędy
  • Logi serwera — bezpośrednia analiza requestów Googlebota (user-agent: Googlebot)
  • Screaming Frog — symulacja crawlowania i identyfikacja problemów
  • Robots.txt tester — weryfikacja, czy reguły blokowania są poprawne

Przykład

Sklep e-commerce ma 5000 produktów, ale generuje 50 000 URL-i przez parametry filtrowania (kolor, rozmiar, cena, sortowanie). Googlebot crawluje głównie strony z filtrami, ignorując nowe produkty. Po wdrożeniu canonical URL na parametryzowanych stronach, noindex na stronach filtrów i aktualizacji sitemap, Google zaczyna indeksować nowe produkty w ciągu 24 godzin zamiast 2 tygodni.

Powiązane pojęcia

  • Indeksowanie — proces zapisu strony w indeksie Google, zależny od crawl budget
  • Crawlability — zdolność crawlerów do przechodzenia przez witrynę
  • Robots.txt — plik kontrolujący dostęp crawlerów
  • Sitemap — mapa strony ułatwiająca crawlowanie
  • Canonical URL — znacznik zapobiegający marnowaniu crawl budget na duplikaty

Potrzebujesz wsparcia?

Kompleksowe pozycjonowanie stron — sprawdź naszą ofertę.