Robots.txt — plik zlokalizowany na serwerze witryny internetowej. Jest zbiorem koment dla robotów wyszukiwarki; rodzajem zalecenia, które strony powinny być przez nie zindeksowane, a które nie.
Robots.txt służy do przekazywania informacji robotom sieciowym na temat tego, które podstrony w witrynie powinny zostać zaindeksowane. Ten plik tekstowy zawiera szereg komend, które informują boty, co powinny, a czego nie powinny robić na stronie www. Jest to możliwe dzięki zastosowaniu mechanizmu o nazwie Robots Exclusion Protocol — “języka” zrozumiałego dla robotów indeksujących. To rodzaj drogowskazu, który wskazuje im, jak mają poruszać się po stronie internetowej. Właśnie dlatego robots.txt to pierwszy plik, którego szukają po “odwiedzeniu” danej witryny internetowej.
Robots.txt ma określoną konstrukcję:
Allow — komenda używana w celu udostępnienia zawartości podfolderu, który znajduje się w ukrytym folderze.
Informacje, które znajdują się w pliku Robots.txt, stanowią jedynie zalecenie dla robotów wyszukiwarki. W praktyce oznacza to, że boty mogą, ale nie muszą zastosować się do komend i wskazówek zawartych w pliku. W przypadku stron, które nie powinny zostać zaindeksowane, warto użyć dodatkowej “ochrony”. Chodzi o dyrektywę noindex i zabezpieczenie w postaci hasła. (boty Indeksujące nie potrafią go “złamać)”. Należy również pamiętać, że boty Google’a, nie są jedynymi robotami, które odwiedzają strony internetowe. Strona znajduje się przecież w indeksie innych, mniej popularnych wyszukiwarek, takich jak, Yahoo czy Bing. Może zatem zdarzyć się tak, że podstrony, na które nie trafią boty Google’a, zostaną zaindeksowane przez roboty sieciowe innej wyszukiwarki.