Najważniejsze informacje o pliku robots.txt

W chwili obecnej miliony stron internetowych jest skanowanych przez roboty indeksujące. Przechodzą one przez całą strukturę witryny, krok po kroku, docierając do każdego jej zakątka.

Z perspektywy osób, które chcą, aby ich strona była, jak najlepiej widoczna, w pełni zaindeksowana, jest to proces jak najbardziej pożądany.

Problem pojawia się w chwili, gdy chcemy ukryć jakieś informacje przez wyszukiwarką. Jak to zrobić? Czy to jest w ogóle możliwe? A może są jakieś obszary w naszej witrynie, które wręcz powinniśmy chronić? Te oraz wiele innych informacji przeczytasz w poniższym wpisie.

Co to jest robots.txt?

Robots.txt jest plikiem tekstowym, który dodaje się do katalogów strony w głównym katalogu przesłanym na serwer.

Najczęściej zawarte są w nim informacje, napisane ze standardem „Robots Exclusion Protocol”, który jest zrozumiały dla botów. Za jego pomocą, określamy pozwolenia na dostęp robotów indeksujących do poszczególnych katalogów znajdujących się w strukturze naszej strony.

Jeśli tego pliku nie ma lub komendy zezwalają na swobodne szperanie po naszej stronie – wtedy możemy być pewni, że roboty dotrą do każdej podstrony.

Najczęściej na małych stronach, jeśli nie mamy duplikatów powstałych w wyniku nieuporządkowanej struktury – pełne przejście botów przez stronę jest wskazane. Dzięki temu wiemy, że każda nasza podstrona jest sprawdzona przez Google i znajduje się w indeksach.

Sytuacja zmienia się w przypadku sklepów internetowych. Nie chcemy wtedy, aby szperacze dotarli np. do koszyka klienta, podsumowania transakcji itp.

W jaki sposób dopuszczać lub blokować roboty na naszej stronie?

Dodanie pliku robots.txt do katalogów to jedno, w następnym kroku należy zawrzeć w nim konkretne komendy, które będą informacją dla robotów indeksujących.

Należy pamiętać, że nie tylko Google skanuje naszą stronę w celu odczytania z niej informacji. Na rynku istnieje wiele innych przeglądarek (np. Bing), a także narzędzi, które w kilka chwil mogą dostarczyć informacje o naszej stronie.

Najważniejsze komendy zawarte w pliku robots.txt to:

User-agent: to polecenie określa nazwę bota. Każda przeglądarka ma inną nazwę dla swoich robotów indeksujących (np. dla Google będzie to Googlebot). Jeśli chcemy wziąć pod uwagę wszystkie, które przechodzą naszą stronę powinniśmy użyć znaku „*”.

Disallow: W tej linijce określamy to, czego roboty nie powinny przeglądać. Musimy być ostrożni, ponieważ użycie znaku „/” sprawi, że roboty nie wejdą na żadną podstronę.

Allow: W tej linii określamy dostęp do podstron w naszej architekturze witryny. Najczęściej, używana jest, gdy wykluczymy konkretny katalog, ale chcemy, aby roboty odwiedzały niektóre z jego podstron.

Dyrektywa Sitemap: W niektórych programach do przeprowadzenia audytu strony uznawana jest za błąd. Dzięki dodaniu linijki z linkiem do naszej strony, ułatwiamy pełne zaindeksowanie naszej witryny. Może ona wyglądać np. tak: sitemap:https://przykladowastrona.pl/sitemap.xml.

Jak utworzyć plik robots.txt i dodać go na swoją stronę?

Najprostszą metodą jest stworzenie pliku tekstowego na naszym komputerze, zmienienie nazwy i rozszerzenia na robots.txt.

Dzięki temu otrzymamy pusty plik, który musimy teraz dodać na serwer do katalogu z plikami naszej strony. Pusty plik pozwala na zaindeksowanie całej strony, jeśli chcemy coś ukryć przed widocznością powinniśmy skorzystać z komendy Disallow: np.: Disallow: /katalog/produkt. W ten sposób dajemy znać, że nie chcemy, aby roboty tam się dostały.

Plik możemy cały czas aktualizować wraz z rozwojem naszej strony, wystarczy go podmienić w katalogach na serwerze. Warto pamiętać, iż należy tworzyć plik w edytorze, który obsługuje standard UTF-8 oraz nie jest skomplikowanym programem tekstowym, który może dodawać swoje znaki w dokumentach tekstowych.

Co oznacza dyrektywa noindex?

Jeśli chcemy wykluczyć całą stronę z indeksowania, możemy także użyć metatagu w kodzie HTML z wartością „noindex”.

W ten sposób Googlebot całkowicie zignoruje stronę i wyeliminuje ją z wyników wyszukiwania. Ważnym jest także, aby nie blokować strony w robots.txt, ponieważ mogą one nie dotrzeć do metatagu, co spowoduje blokadę, ale równoczesne wyświetlanie się w SERPach.

Czy muszę mieć ten plik na swojej witrynie?

Nie musisz. Jeśli dodasz plik robots.txt i będzie w nim dostęp do całej struktury witryny, wtedy jest on zbędny. Roboty i tak przejdą przez całą stronę (pod warunkiem, że jest prawidłowo podlinkowana wewnętrznie), indeksując ją w całości.

Warto z niego korzystać w sytuacji, gdy nie chcemy, aby coś zostało przez nie sprawdzone. Warto także wspomnieć, że jeśli do naszej strony będą prowadziły linki zewnętrzne, to roboty odczytają i zaindeksują adres URL pomimo blokady.

Według niektórych robots.txt jest całkowicie zbędny, ponieważ roboty i tak dotrą w każde miejsce. Jednak my zalecamy dodanie go na stronie, ponieważ wciąż jest uznawany według oficjalnych informacji Google.

Podsumowanie

Tworząc stronę internetową, nastawioną na pozyskiwanie potencjalnych klientów musimy być pewni, że znajduje się ona w indeksach wyszukiwarki, jest w pełni zoptymalizowana oraz w swoich katalogach ma wszelkie niezbędne pliki.

Dodanie pliku robots.txt, nawet jeśli będzie w nim dostęp do całej witryny oraz dyrektywa sitemap.xml z pewnością nie zaszkodzi, a może pomóc.

Pamiętajmy, że w Internecie nic nie ginie i jeśli coś tam dodajemy, to zostanie to w pełni sprawdzone przez wiele botów, które codziennie indeksują miliony stron.

1 komentarz do “Najważniejsze informacje o pliku robots.txt

  1. lista escape roomów

    hey there and thank you for your information – I’ve certainly picked
    up anything new from right here. I did however expertise several technical points using this website,
    as I experienced to reload the web site lots of times previous to
    I could get it to load properly. I had been wondering if your web host is OK?
    Not that I am complaining, but sluggish loading instances times will sometimes affect your placement in google and
    can damage your high-quality score if ads and marketing with Adwords.
    Anyway I am adding this RSS to my email and can look out for much more of your respective fascinating content.
    Ensure that you update this again soon.. Escape roomy lista

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *