Jak efektywnie korzystać z pliku robots.txt?

Pik tekstowy robots.txt mówi wyszukiwarkom internetowym, które części Twojej strony powinny przeanalizować oraz które mogą śmiało ominąć. Ten niewielki i skromny plik umieszczany jest w głównym katalogu Twojej witryny i może zdziałać prawdziwe cuda jeżeli chodzi o eliminację z indeksowania stron, które zawierają powielaną treść, szkodliwe linki i SPAMerski content.

Wiele stron Twojej witryny nie musi tak naprawdę trafiać do indeksu Google ? nie ma więc potrzeby ich crawlowania. Mogą one nie być w żaden sposób przydatne dla użytkowników, którzy przeglądają SERPy. Jeżeli chcesz aby algorytmy wyszukiwarek nie prześligzały się przez konkretne obszary Twojej strony skorzystaj z oferowanego przez Google generatora plików robots.txt (http://googlewebmastercentral.blogspot.com/2008/03/speaking-language-of-robots.html).

Jeżeli Twoja strona posiada subdomeny i chciałbyś, aby na poszczególnych z nich dany obszar nie był analizowany wtedy dla każdej musisz stworzyć niezależne pliki tekstowe robots.txt.

Oczywiście oprócz tworzenia samych plików robots.txt możesz dodatkowo skorzystać z wielu innych narzędzi, dzięki którym googlebot nie będzie crawlował danej podstrony. Jednym z rozwiązań jest między innymi dodanie atrybutu noindex do meta tagów.

Skorzystaj z bardziej bezpiecznych metod w przypadku najważniejszych treści

Jeżeli mamy do czynienia z ważnym i wrażliwym contentem nie będziesz chciał korzystać z rozwiązania robots.txt. Dlaczego? Po pierwsze wyszukiwarki dalej będą mogły odnosić się do adresów URL, które blokujesz (indeksując jedynie sam adres, bez podania tytułu lub snippetu). Oprócz tego nie wszystkie wyszukiwarki obsługując standard Robots Exclusion więc lepiej sięgnąć po inne rozwiązania niż sam plik robots.txt.

Najbezpieczniejszą alternatywą jest po prostu zakodowanie takowej treści lub chronienie jej hasłem poprzez wykorzystanie .httaccess.

Plikom robots.txt przyglądałem się już w jednym z wcześniejszych wpisów. Informacje na ten temat możecie znaleźć między innymi TUTAJ.

Tags: ,