Czym jest robots.txt?

Robots.txt to plik tekstowy umieszczony w katalogu głównym witryny (/robots.txt), który informuje crawlery wyszukiwarek, które strony mogą skanować, a które powinny pominąć. Jest to pierwsza rzecz, którą sprawdza Googlebot (i inne crawlery, w tym AI boty) przed skanowaniem strony.

Plik robots.txt NIE blokuje indeksowania — strona może pojawić się w wynikach Google nawet bez skanowania (np. jeśli inne strony do niej linkują). Do blokowania indeksowania służy meta tag noindex.

Dlaczego to ważne?

Kontrola crawl budgetu — blokowanie nieistotnych stron (admin, duplikaty) oszczędza zasoby crawlowania
Ochrona zasobów — blokowanie stron administracyjnych, wersji dev, wewnętrznych wyszukiwarek
AI crawlery — kontrola nad dostępem GPTBot, ClaudeBot, PerplexityBot do treści
Wskazanie sitemapy — robots.txt to standardowe miejsce na adres sitemapy

Jak to działa?

User-agent: *
Allow: /
Disallow: /_next/
Disallow: /api/

User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
Allow: /

Sitemap: https://twojadomena.pl/sitemap.xml

Kluczowe dyrektywy:

User-agent — do jakiego crawlera odnosi się reguła (* = wszystkie)
Allow — jawne pozwolenie na skanowanie ścieżki
Disallow — blokada skanowania ścieżki
Sitemap — adres URL pliku sitemap

Najlepsze praktyki

Nie blokuj ważnych zasobów — CSS, JS, obrazy muszą być dostępne dla renderu strony
Pozwól AI crawlerom — dla GEO ważne jest, aby GPTBot, ClaudeBot i PerplexityBot mogły skanować treści
Blokuj admin i duplikaty — /admin/, /api/, wewnętrzne wyszukiwania
Dodaj sitemapę — Sitemap: https://... na końcu pliku
Testuj w GSC — Google Search Console ma narzędzie do testowania robots.txt
Nie używaj do ukrywania treści — robots.txt nie chroni prywatnych danych

Więcej o optymalizacji technicznej w artykule o SEO technicznym.

Powiązane pojęcia

Sitemap — mapa strony dla wyszukiwarek
Crawlability — zdolność strony do bycia przeskanowaną
Crawl budget — limit crawlowania
GEO — optymalizacja pod AI
Indeksowanie — proces dodawania do indeksu Google

Robots.txt — jak kontrolować crawlowanie strony?

Czym jest robots.txt?

Dlaczego to ważne?

Jak to działa?

Najlepsze praktyki

Powiązane pojęcia

Potrzebujesz wsparcia?

Powiązane artykuły

Jak przyspieszyć indeksowanie strony w Google — 7 metod [2026]

SEO techniczne — kompletna checklista 2026

SEO dla e-commerce — jak pozycjonować sklep internetowy w 2026