Do zrozumienia pojęcia Crawl Budget musimy zacząć od odmówienia procesów wchodzących w jego skład, a są to:
Crawl rate limit jest to współczynnik skanowania. Jest on określany przez Googlebot’a na podstawie możliwości serwera strony, w ten sposób, aby nie obciążać jej zbytnio i nie powodować jej spowolnienia, a przez to pogorszyć doświadczenia z użytkowania strony. Crawl Rate zmienia się bazując na 2 czynnikach:
Ten czynnik określa jak dużo i jakie strony będą odwiedzone i zaindeksowane podczas jednego przejścia bota. Googlebot określa które adresy URL są ważniejsze i umieszcza je jako pierwsze w kolejce do indeksacji. Ważność adresów określana jest na podstawie 2 czynników:
Proces skanowania jest złożony i wymaga stworzenia listy adresów, które będą skanowane na danej stronie. Lista ta nie jest ułożona w sposób przypadkowy i zależy od wyżej wymienionych czynników, które determinują kolejność skanowania.
Crawl Budget jest czymś o co powinny się obawiać głownie duże strony, zawierające więcej niż kilka tysięcy adresów URL, jak np. duże sklepy e-comerce. Może to powodować ze nie wszystkie strony zostaną przeskanowane przez robota. Dla tego tak ważne jest włączanie z indeksacji stron, które są nieaktualne lub nie ma potrzeby ich skanowania (jak strony kategorii produktów).
W przypadku mniejszych stron nie ma konieczności przejmowanie się tak bardzo Crawl Budgete’em ze względu na ilość adresów URL, które muszą być zaindeksowane. Większym problemem w takim przypadku mogą być błędy na stronach powodujące spadek szybkości skanowania stron.
Do optymalizacji Crawl Budget’u, najpierw musimy poznać problemy, z jakimi boryka się strona i jaki mają one wpływ na crawl budget.
Jednym z podstawowych narzędzi do ocenienia kondycji strony jest Google Search Console. Za pomocą tego narzędzia możemy sprawdzić ilość aktualnie zaindeksowanych stron, ile z nich zostało wykluczonych i jaki był tego powód, oraz czy występują błędy, które mogą wpływać na crawl budget.
Kolejnym sposobem na sprawdzenie co dokładnie jest skanowane przez robota Googl’a, jest analiza logów serwera. Podczas przeglądania tych danych sprawdzimy, czy skanowany kontent jest dla nas ważny, czy wręcz przeciwnie.
Podczas analizy logów serwera powinniśmy sprawdzić:
Jako właścicielowi strony powinno nam zależeć na tym, aby jak największa ilość stron znajdowała się w indeksie Google. Ułatwia to potencjalnemu użytkownikowi znalezienie naszej strony.
Zobacz jak zmienić częstotliwość indeksowania w Google Search Console.
Stosowanie pliku robots.txt. W tym pliku wyłączamy ze skanowania przez robot te sekcje naszej strony, które nie muszą być przeskanowane jak strona logowania czy strona z regulaminem. Stworzenie mamy strony także jest bardzo pomocne przy zarządzaniu Crawl Budgetem. W pliku sitemap.xml zamieszczamy wszystkie adresy zwracające poprawny kod 200, zawierające tagi index i follow, strony kanoniczne. Tak stworzona mapa strony powinna być wysłana do Googl’a za pomocą Google Search Console. Dobrze jest zamieścić link do mapy strony w pliku robots.txt.
Innym sposobem jest używanie tagu noindex. Stosowanie tego tagu powoduje, ze robot przeskanuje ale nie zajdzie indeksowanie strony w Googlach.
JavaScript: duża ilość kodu JavaScript na stronie może mieć negatywny wpływ na Crawl Budget. Jest to spowodowane tym, ze renderowanie kodu JS jest bardziej złożone od renderowania kodu HTML, przez co wymaga więcej pracy do przebrnięcia przez kod JS, co spowalnia proces skanowania strony. Może być to dla nas szczególnie istotne, jeśli często aktualizujemy zawartość strony, która jest ukryta pod JavaScripte’em.
Sposobem na poradzenie sobie z tym problemem jest wprowadzenie dynamicznego renderowania.
Niska wydajność: jeśli nasza strona nie jest najlepiej zoptymalizowana i miewa problemu z szybkością odpowiedzi serwera, ilość wizyt Googlebota będzie spadać. Żeby temu zapobiec możemy podjąć pewnie działania:
Wewnętrzne przekierowania: duża ilość przekierowań w serwisie może spowodować problemy ze skanowaniem naszej strony przez robota. Dla tego powinniśmy unikać łańcuchów przekierowań. By sprawdzić czy na naszej stronie występują takowe przekierowania możemy użyć narzędzi jak ScreamingFrog czy DeepCrawl. Za pomocą tych programów możemy manualnie przeskanować stronę w poszukiwaniu błędów, a po ich zidentyfikowaniu poprawić je.
Duplikaty stron: powinniśmy unikać duplikowania zawartości stron w naszej witrynie, ponieważ może mieć to wpływ na Crawl Budget. Sposobem na to jest stosowanie tagów kanonicznych, które wskazują na to, który adres URL jest adresem oryginalnym.
Wewnętrzne linkowanie pomaga w poruszaniu się po stronie, a dobrze zbudowana struktura linków pomaga w skanowaniu ważnej dla nas zawartości. Brak wewnętrznego linkowania może powodować z niektóre segmenty naszej strony nie będą skanowane przez robota Googla. W trakcie tworzenia struktury linków na stronie musimy uważać ma kilka rzeczy:
Błędy w sitemapie lub jej brak.
Brak sitemapy lub jej błędna implementacja mogą prowadzić do problemów ze skanowaniem. Dla tego powinniśmy zadbać, aby mapa naszej strony była regularnie aktualizowana i nie posiadała błędów.
Czego nie powinniśmy umieszczać w sitemapie?
Zarządzanie Crawl Budget’em może okazać się bardzo istotne, w sytuacji gdy posiadamy duża witrynę ze sporą ilością podstron. Wtedy dbanie o crawl budget może być bardzo pomocne w kontekście osiągania dobrych wyników przez naszą stronę. W przypadku mniejszych stron nie ma to aż takiego znaczenia, lecz zawsze warto starać się by nasza strona była w dobrej kondycji.