Robots.txt — jak kontrolować crawlowanie strony?
Czym jest robots.txt?
Robots.txt to plik tekstowy umieszczony w katalogu głównym witryny (/robots.txt), który informuje crawlery wyszukiwarek, które strony mogą skanować, a które powinny pominąć. Jest to pierwsza rzecz, którą sprawdza Googlebot (i inne crawlery, w tym AI boty) przed skanowaniem strony.
Plik robots.txt NIE blokuje indeksowania — strona może pojawić się w wynikach Google nawet bez skanowania (np. jeśli inne strony do niej linkują). Do blokowania indeksowania służy meta tag noindex.
Dlaczego to ważne?
- Kontrola crawl budgetu — blokowanie nieistotnych stron (admin, duplikaty) oszczędza zasoby crawlowania
- Ochrona zasobów — blokowanie stron administracyjnych, wersji dev, wewnętrznych wyszukiwarek
- AI crawlery — kontrola nad dostępem GPTBot, ClaudeBot, PerplexityBot do treści
- Wskazanie sitemapy — robots.txt to standardowe miejsce na adres sitemapy
Jak to działa?
User-agent: *
Allow: /
Disallow: /_next/
Disallow: /api/
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
Allow: /
Sitemap: https://twojadomena.pl/sitemap.xml
Kluczowe dyrektywy:
- User-agent — do jakiego crawlera odnosi się reguła (
*= wszystkie) - Allow — jawne pozwolenie na skanowanie ścieżki
- Disallow — blokada skanowania ścieżki
- Sitemap — adres URL pliku sitemap
Najlepsze praktyki
- Nie blokuj ważnych zasobów — CSS, JS, obrazy muszą być dostępne dla renderu strony
- Pozwól AI crawlerom — dla GEO ważne jest, aby GPTBot, ClaudeBot i PerplexityBot mogły skanować treści
- Blokuj admin i duplikaty —
/admin/,/api/, wewnętrzne wyszukiwania - Dodaj sitemapę —
Sitemap: https://...na końcu pliku - Testuj w GSC — Google Search Console ma narzędzie do testowania robots.txt
- Nie używaj do ukrywania treści — robots.txt nie chroni prywatnych danych
Więcej o optymalizacji technicznej w artykule o SEO technicznym.
Powiązane pojęcia
- Sitemap — mapa strony dla wyszukiwarek
- Crawlability — zdolność strony do bycia przeskanowaną
- Crawl budget — limit crawlowania
- GEO — optymalizacja pod AI
- Indeksowanie — proces dodawania do indeksu Google