Crawl budget je objem URL, ktoré dokáže crawler prejsť behom určitého časového obdobia. Jeho miera je nejčasejšie udávaná v počte URL, prechádzaných špecifickým robotom (crawlerom) za jeden deň. Udáva ju mnoho faktorov. Medzi najdôležitejšie patrí kvalita obsahu, rýchlosť načítania stránok a štruktúra interného prelinkovania.
Ako zistiť crawl budget webu
Na identifikáciu crawl budget špecifických crawlerov (robotov) vyhľadávačov sa používa analýza access logov servera. Access log je súbor na serveri, ktorý zaznamenáva všetky požiadavky, ktoré server spracováva. Na výstupe vracia dáta ako:
- User-agent (Používa sa na identifikáciu požiadavky robota na server)
- IP
- URL požiadavky
- Dátum a čas požiadavky
- …a mnohé ďalšie
Dovoľuje tak SEO špecialistom či komukoľvek inému analyzovať bližšie informácie o požiadavkach, vykonávaných crawlermi vyhľadávačov.
Optimalizácia crawl budgetu
Vyhľadávače prideľujú crawl budget webu primárne na základe jeho autority (odkazového portfólia) a množstve unikátneho/kvalitného obsahu, ktoré sú schopné získať. V rámci prechodu crawlera webom je treba riešiť tzv. crawl waste. Crawl waste sú otázky, ktoré idú na neexistujúce stránky či stránky, ktoré nechceme indexovať. V rámci analýzy logov sa najčastejšie objavujú nasledujúce problémy:
- URL s chybovou odozvou
- Neindexovateľné stránky
- Stránky s tzv. “thin content”