LOADING

Robots.txt a meta tag robots

Pomimo podobnych nazw są to dwie różne rzeczy, aczkolwiek o zbliżonej funkcji. Każda strona jest odwiedzana przez roboty – nie tylko Google, ale też innych wyszukiwarek czy stron (np. crawlery Majestic, Ahrefs). Właściciel strony ma możliwość wpływu na to, co robią roboty na jego stronie i z jego stroną.

Meta tag robots

Służy głównie do informowania bota, czy chcemy by dana strona była włączona do indeksu. W kodzie ma on postać jak niżej, znajduje się w sekcji head:

robots-txt-przyklad

Domyślna wartość dla niego to follow. Jeśli jednak nie chcemy, by strona pojawiała się np. w wynikach wyszukiwania Google to mamy możliwość ustalenia tagu robots na nofollow dla całej strony lub pojedynczej strony i wtedy robot potraktuje to jako informację, żeby strony nie indeksować.

Robots.txt

To plik robots.txt który zawsze znajduje się bezpośrednio w folderze root tzn. znajdziemy go pod adresem http://www.strona.pl/robtos.txt. Najczęściej będzie on miał postać:

Oczywiście pliki robots.txt mogą być dużo dłuższe niż przykład wyżej.

Do czego służy robots.txt? Wyobraźmy sobie sytuację, że prowadzimy bardzo duży sklep – setki tysięcy podstron, obrazków itp. Jak wspomnieliśmy, stronę odwiedzają nie tylko roboty Google ale także inne roboty, które przeglądają całą naszą stronę. Generują przy tym duże obciążenia serwera. Wbrew pozorom to częsty problem dużych serwisów, gdy boty potrafią zauważalnie obciążyć serwer. Dzięki robots.txt możemy tak pokierować ruch robotów, by niektóre np. w ogóle nie wpuszczać lub wpuszczać je tylko do określonych części strony.

Należy pamiętać, że instrukcje w robots.txt to polecenie, które niektóre roboty mogą zignorować. Najczęściej jednak stosują się do poleceń i daje to możliwość webmasterom pewnej kontroli nad robotami.

Więcej o robots.txt tutaj.

Alternatywnie można dodać też odpowiednie blokady w pliku htaccess.