Budżet na indeksowanie to ilość adresów URL, które indeksator może pobrać w określonym czasie. Jego wysokość najczęściej podaje się w ilości adresów URL przeskanowanych przez konkretnego robota (crawlera) w ciągu jednego dnia. Zależy to od kilku czynników, a najbardziej kluczowe to jakość treści, szybkość ładowania strony i struktura linków wewnętrznych.
Jak określić budżet na indeksowanie stron internetowych
Użytkownik potrzebuje pliku dziennika dostępowego, aby zidentyfikować budżet crawlowania z konkretnych crawlerów (robotów) wyszukiwarki. Dziennik dostępu to plik na serwerze, w którym zapisywane są wszystkie żądania przetwarzane przez dany serwer. Dane wyjściowe wracają wtedy jako:
- User-agent (Służy do identyfikacji żądań od crawlera do serwera)
- IP
- Adres URL żądania
- Data i godzina złożenia wniosku
- …i wiele innych
Dzięki niemu specjaliści SEO lub ktokolwiek inny może dokładnie analizować informacje o zapytaniach wykonywanych przez roboty wyszukiwarek.
Optymalizacja budżetu indeksowania
Wyszukiwarki przypisują witrynie budżet indeksowania przede wszystkim na podstawie jej autorytetu (portfolio linków) oraz ilości unikalnych i jakościowych treści, które są w stanie pozyskać. W sprawie kroku crawlerów internetowych należy wziąć pod uwagę odpad crawl. Crawl wastes to komentarze i zapytania, które trafiają na nieistniejące strony lub takie, których nie chcemy indeksować. Poniżej przedstawiono najczęstsze problemy występujące przy analizie logów:
- URL z odpowiedzią na błąd
- Witryny nieindeksowalne
- Strona internetowa z “cienką treścią”