Googlebot, inaczej nazywany crawlerem lub po polsku pająkiem, to robot Google’a codziennie analizujący strony i treści w Internecie
Jest tzw. “dobrym obywatelem sieci” – jego zadaniem jest zaindeksowanie każdej strony i podstrony danej witryny, z odgórnym założeniem nie wywołania negatywnego wpływu na doświadczenia użytkownika podczas jej przeglądania. Proces ten musi zatem odbywać się bez dużego obciążania serwera Google oraz serwera, na którym znajduje się dana domena.
Indeksowanie strony internetowej służy temu, aby mogła ona zostać wyświetlona w wynikach wyszukiwania – jest zatem standardowym procesem implikującym zaistnienie strony w SERP-ie. Wysoki poziom współczynnika indeksacji jest ważny, jednak nie wpływa bezpośrednio na pozycję w wynikach wyszukiwania. W celu ułatwienia odnalezienia wszystkich adresów URL Twojej strony, przez Google spidery tworzone są mapy strony.
Crawl Budget – czy to na pewno nie gryzie?
Crawl Budget to pojęcie, które definiowane jest przez dwa czynniki:
– Crawl Rate Limit
– Crawl Demand
Crawl Rate Limit
Określa on liczbę połączeń, jakie robot może wykonać w obrębie witryny. Im sprawniejsza witryna, tym Googlebot może w czasie jednej sesji zaindeksować większą liczbę podstron poprzez jednoczesne, równoległe połączenia w obrębie strony. Kiedy Twoja witryna działa szybko, Crawl Rate Limit wzrasta. Jeśli natomiast serwer spowalnia lub występują pewne błędy, liczba zaindeksowanych stron maleje.
Crawl Demand
Jest to natomiast częstotliwość indeksacji – czyli odwiedzania strony przez Googlebota w zależności od liczby odwiedzin naszej witryny przez użytkowników.
Zależy od “popytu” naszej strony oraz od wartości treści i ich aktualności, ponieważ roboty Google’a pragną dostarczać użytkownikom jak najświeższych i użytecznych informacji.
Crawl budget to zatem ogólna liczba stron i podstron danej witryny, które Googlebot po uwzględnieniu Crawl Rate Limit i Crawl Demand może lub chce poddać crawlingowi – czyli indeksowaniu.
Zwykle większość posiadaczy stron w ogóle nie musi się przejmować czym jest Crawl Budget. Jeżeli Twoja strona jest odpowiednio zoptymalizowana, nie zawiera zbyt wielu podstron (kilkadziesiąt/kilkaset) oraz dbasz o regularne dodawanie wartościowych treści to strona będzie indeksowana sprawnie. Dbanie o Crawl Budget jest istotne w przypadku dużych witryn, w których liczba adresów URL zbliża się do kilku tysięcy (np. sklepy internetowe).
Od czego zależy wielkość współczynnika indeksacji?
Odgórną decyzję Google’a można zmienić w oparciu o działania na:
Crawl Health – limit szybkości indeksowania
Crawl Health określany jest na podstawie szybkości strony internetowej. Jeśli nasza witryna nie przeciąga czasu odpowiedzi to googlebot pozwala sobie na zaindeksowanie większej liczby podstron – Crawl Rate Limit rośnie.
Limit szybkości indeksowania jesteśmy w stanie określić na podstawie działań w Google Search Console. Jeżeli Google Spider zbytnio obciąża serwery naszej witryny możemy ograniczyć maksymalną szybkość indeksowania. Należy przy tym pamiętać, że zwiększenie limitu niekoniecznie zostanie zaakceptowane przez algorytm, w wspomniana opcja zmiany limitu dostępna jest jedynie w starszej wersji konsoli.
Oprócz Crawl Health i limitu szybkości indeksowania, na Crawl Budget wpływają również :
– wewnętrzne duplikaty treści na stronach i nawigacja fasetowa popularna w sklepach internetowych;
– miękkie błędy 404 czyli zwracanie kodu błędu 200 zamiast 404;
– thin content, czyli treści o niskiej jakości, marnują jedynie zasoby serwerów i ograniczają Crawl Budget oraz
– dodatkowe adresy URL zawierające parametry sesji, powstałe po filtrowaniu produktów.
Poznaj wiele innych definicji związanych z pozycjonowaniem czytając nasz Słownik SEO.