Robots.txt

Robots.txt — plik zlokalizowany na serwerze witryny internetowej. Jest zbiorem koment dla robotów wyszukiwarki; rodzajem zalecenia, które strony powinny być przez nie zindeksowane, a które nie.

Robots.txt — co to jest

Robots.txt służy do przekazywania informacji robotom sieciowym na temat tego, które podstrony w witrynie powinny zostać zaindeksowane. Ten plik tekstowy zawiera szereg komend, które informują boty, co powinny, a czego nie powinny robić na stronie www. Jest to możliwe dzięki zastosowaniu mechanizmu o nazwie Robots Exclusion Protocoljęzyka zrozumiałego dla robotów indeksujących. To rodzaj drogowskazu, który wskazuje im, jak mają poruszać się po stronie internetowej. Właśnie dlatego robots.txt to pierwszy plik, którego szukają po odwiedzeniu danej witryny internetowej.

Robots.txt — z czego składa się plik

Robots.txt ma określoną konstrukcję:

  • User-agent — tutaj należy wpisać adresata komendy, czyli robota, z którym chcemy się porozumieć. Najczęściej jest to Googlebot.
  • Sitemap — tutaj wskazujemy ścieżkę do mapy witryny (element opcjonalny).
  • Disallow — po tej komendzie podajemy adres podstrony, której roboty nie powinny skanować.

Allow — komenda używana w celu udostępnienia zawartości podfolderu, który znajduje się w ukrytym folderze.

Robots.txt — to sugestia, a nie nakaz

Informacje, które znajdują się w pliku Robots.txt, stanowią jedynie zalecenie dla robotów wyszukiwarki. W praktyce oznacza to, że boty mogą, ale nie muszą zastosować się do komend i wskazówek zawartych w pliku. W przypadku stron, które nie powinny zostać zaindeksowane, warto użyć dodatkowej ochrony. Chodzi o dyrektywę noindex i zabezpieczenie w postaci hasła. (boty Indeksujące nie potrafią go złamać). Należy również pamiętać, że boty Google’a, nie są jedynymi robotami, które odwiedzają strony internetowe. Strona znajduje się przecież w indeksie innych, mniej popularnych wyszukiwarek, takich jak, Yahoo czy Bing. Może zatem zdarzyć się tak, że podstrony, na które nie trafią boty Google’a, zostaną zaindeksowane przez roboty sieciowe innej wyszukiwarki.