Robots.txt
Czym jest robots.txt?
Robots.txt to plik tekstowy umieszczony w katalogu głównym witryny (https://example.com/robots.txt), który informuje crawlery wyszukiwarek, które sekcje strony mogą skanować, a których powinny unikać. Jest to pierwszy plik, który Googlebot sprawdza przed rozpoczęciem crawlowania witryny.
Składnia robots.txt
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Sitemap: https://example.com/sitemap.xml
- User-agent — określa, którego crawlera dotyczy reguła (
*= wszystkie) - Allow — zezwala na crawlowanie podanej ścieżki
- Disallow — blokuje crawlowanie podanej ścieżki
- Sitemap — wskazuje lokalizację sitemap XML
Czego NIE blokować?
- Plików CSS i JavaScript (Google potrzebuje ich do renderowania)
- Stron, które chcesz mieć w indeksie
- Obrazów, które powinny pojawiać się w Google Images
Robots.txt a meta noindex
Robots.txt blokuje crawlowanie, ale nie gwarantuje braku indeksacji. Jeśli inna strona linkuje do zablokowanego URL-a, Google może go zaindeksować (bez treści). Aby pewnie usunąć stronę z indeksu, użyj meta tagu noindex.
Robots.txt a crawlery AI
Rosnąca liczba crawlerów AI (GPTBot, ClaudeBot, PerplexityBot) respektuje robots.txt. Jeśli chcesz kontrolować, czy Twoje treści są używane do trenowania modeli AI, możesz dodać specyficzne reguły:
User-agent: GPTBot
Disallow: /
To ważny element strategii GEO — decyzja, czy blokować, czy wpuszczać crawlery AI.