Sitemap (mapa stránky) je XML súbor, ktorý by mal obsahovať informácie o všetkých vašich dôležitých vstupných stránkach, súboroch, obrázkoch alebo videách, ktoré chcete, aby Google objavil, prešiel a zaindexoval.
Zjednodušene povedané, ako už z názvu vychádza (“map”) jedná sa o mapu, pomocou ktorej sa vie orientovať vyhľadávací robot (crawler) na vašom webe a objaviť aj tie stránky, ku ktorým sa ešte cez interné prelinkovanie nedostal.
Dobrým štandardom je umiestnenie odkazu (absolútnej cesty) na vytvorený súbor sitemap.xml v súbore robots.txt. Zápis v súbore robots.txt môže vyzerať nasledovne:
Sitemap: https://www.marketingminer.com/sitemap.xml
Ako vyzerá XML sitemap?
Najčastejšie vyzerá klasicky vygenerovaný sitemap súbor zhruba takto:
Avšak v prípade rôznych CMS, môže vyzerať samozrejme inak. Účel však plní vždy rovnaký:
Na obrázku vyššie vidíte ukážku vygenerovanej XML sitemap vo WordPresse pomocou pluginu YoastSEO. Vzhľad sitemapy nie je podstatný, dôležitá je jeho funkcia.
Sitemap index
Jedna sitemap môže obsahovať maximálne 50 000 URL adries, akonáhle prekročíte túto hranicu, vytvorte ďalšiu sitemapu. V prípade, že váš web obsahuje viacero sitemap súborov, je dobrým zvykom vytvorenie tzv. sitemap index. Sitemap index je klasický XML súbor (ako klasická sitemapa), ktorý obsahuje odkazy na jednotlivé sitemap súbory.
Ukážka zápisu sitemap index súboru:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://www.marketingminer.com/sitemap1.xml</loc>
</sitemap>
<sitemap>
<loc>https://www.marketingminer.com/sitemap2.xml.gz</loc>
</sitemap>
</sitemapindex>
Teraz si poďme vysvetliť jednotlivé parametre, ktoré môže klasická sitemap obsahovať.
URL set
Každá sitemap musí obsahovať značku <urlset>, v ktorej je deklarované aký protokol sa používa. Štandardne je to verzia 0.9, ktoré je podporovaná väčšinou vyhľadávačov.
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
URL
Dostávame sa k nadradenej značke <url>, ktorá môže v sebe obsahovať tieto podradené značky:
- <loc> – absolútna hodnota URL adresy. Mali by ste sem dávať iba kanonické URL adresy, ktoré chcete zaindexovať. Toto je jediný povinný parameter v značke <url>.
- <lastmod> – pomocou tejto značky viete špecifikovať, kedy bol obsah na danej URL naposledy upravený. Na zápis musíte využIť W3C dátový formát v tvare yyyy-mm-dd.
- <priority> – priorita danej URL adresy voči ostatným URL adresám v sitemape. Hodnota môže byť od 0.0 do 1.0. – čím vyššie číslo, tým vyššia priorita.
- <changefreq> – informácia, ako často sa mení obsah na danej URL, aby crawler orientačne vedel, ako často sa má na danú URL vracať. Hodnoty môže byť nasledovné: always, hourly, daily, weekly, monthly, yearly, never.
Ukážka zápisu:
<url>
<loc>https://www.marketingminer.com/cs</loc>
<lastmod>2020-10-08T13:32:20+00:00</lastmod>
<priority>1.00</priority>
<changefreq>monthly</changefreq>
</url>
Iné typy sitemap
V sitemap.xml sa nemusia nachádzať iba odkazy na vstupné stránky, ale aj na multimediálne súbory. Existujú aj tieto iné typy sitemap:
- Video sitemap – sitemap obsahujúca informácie o videách.
- Image sitemap – sitemap obsahujúca podrobné informácie o obrázkoch.
- Google News sitemap – sitemap vhodná predovšetkým pre veľké médiá, ktoré potrebujú rýchlo zaindexovať nový obsah a chcú sa dostať do služby Google News.
Video sitemap
Video sitemap je vynikajúci spôsob, akým dokážete informovať crawlera o videách, ktoré hosťujete na vašom servery a aby pochopil ich obsah. Do video sitemap odporúčame pridávať iba čerstvé videá.
Ukážka zápisu video sitemap, ktorá obsahuje všetky povinné parametre:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:video="http://www.google.com/schemas/sitemap-video/1.1">
<url>
<loc>https://www.marketingminer.com/video/sitemap.html</loc>
<video:video> <video:thumbnail_loc>https://www.marketingminer.com.com/thumbs/sitemap.jpg</video:thumbnail_loc>
<video:title>Ukážka XML sitemap súboru</video:title>
<video:description>Ukážka čo je to sitemap.xml a ako si ju vytvoriť krok za krokom
</video:description>
<video:content_loc>
https://youtube.com/sitemap_video.mp4</video:content_loc>
<video:player_loc>
https://www.example.com/videoplayer.php?sitemap_video=123</video:player_loc>
</video:video>
</url>
</urlset>
Image sitemap
Vytvorenie Image sitemap (obrázková sitemap) je vynikajúci spôsob ako informovať vyhľadávač o obrázkoch, na ktoré by sa ich crawler nedostal. Jedná sa napríklad o obrázky, ktoré sú prístupne až cez nejaký JavaScript kód.
Ukážka zápisu image sitemap:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">
<url>
<loc>https://www.marketingminer.com.com/image_sitemap.html</loc>
<image:image>
<image:loc>https://www.marketingminer.com.com/sitemap.jpg</image:loc>
</image:image>
</url>
</urlset>
Spolu s vyplneným alt tagom vám pomôže sitemap s tým, aby crawler lepšie pochopil zmysel daného obrázka.
Google News sitemap
Pokiaľ chcete zvýšiť šancu na zobrazovanie vášho obsahu v službe od Google, ktorá agreguje správy – Google News, tak by ste mali zvážiť vytvorenie špeciálnej sitemap práve pre tento účel.
Ukážka zápisu Google News sitemap:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:news="http://www.google.com/schemas/sitemap-news/0.9">
<url>
<loc>https://www.marketingminer.com/cs/blog/analyza-klicovych-slov.html</loc>
<news:news>
<news:publication>
<news:name>Analýza klíčových slov</news:name>
<news:language>cs</news:language>
</news:publication>
<news:publication_date>2021-04-13</news:publication_date>
<news:title>Analýza klíčových slov krok za krokem</news:title>
</news:news>
</url>
</urlset>
Podmienkou je, aby ste do Google News sitemapy vložili iba URL adresy, ktorých obsah nie je starší ako 2 dni. Po uplynutí doby 2 dní od publikácie, by ste mali automaticky zmazať túto URL z danej Google News sitemap, aby sa vám tam nehromadili staršie články, ale bol tam vždy iba najčerstvejší obsah.
Kto potrebuje súbor sitemap.xml?
Google sa orientuje tak, že prechádza odkazy a pomocou nich hľadá nové stránky. Ak však máte nový web, ktorý zatiaľ nemá žiadnu históriu, nevedú na neho externé odkazy a nie je dobre interne prelinkovaný, tak je pre crawlera náročné objaviť všetky podstránky.
V tomto prípade prichádza na scénu práve súbor sitemap.xml, kde viete špecifikovať všetky dôležité vstupné stránky, ktoré chcete, aby crawler prešiel a v prípade, že on sám ich uzná za vhodné, tak ich aj zaradí do indexu a začne zobrazovať vo výsledkoch vyhľadávania.
V týchto prípadoch je dobré vytvoriť súbor sitemap.xml:
- Nový web – ako sme už vyššie spomínali, ak máte nový web, určite si vytvorte XML sitemap, ktorý odošlite do Google. Vďaka tomu je väčšia šanca, že Google skôr prejde vaše dôležité vstupné stránky a zaindexuje ich.
- Veľký web – v prípade, že máte veľké množstvo vstupných stránok a nemáte veľmi dobre riešené interné prelinkovanie, tak odporúčame dynamicky pridávať nové vstupné stránky do sitemap, aby ste zabezpečili to, že crawler dané vstupné stránke neprehliadne. Typicky sa to týka e-shopov.
- Web generujúci veľké množstvo čerstvého obsahu – weby, ktoré generujú veľké množstvo čerstvého obsahu (často spravodajské weby) by mali mať určite sitemapu, pretože v prípade čerstvého obsahu je dôležité, aby crawler rýchlo prešiel danú “novinku”, zaindexoval ju a zobrazoval vo výsledkoch vyhľadávania. V prípade spravodajských webov sa jedná práve o Google News Sitemap, ktorú sme vyššie spomínali..
- Multimediálny obsah – opäť, ako sme vyššie spomínali, ak máte ťažko prístupný multimediálny obsah (napríklad cez JS), je lepšie vytvoriť špeciálne druhy sitemap (videos, images…).
Dôležité informácie o sitemape
- To, že máte URL adresu v sitemape nezaručuje, že ju Google zaindexuje a začne zobrazovať vo výsledkoch vyhľadávania.
- Jedna sitemap môže obsahovať maximálne 50 000 URL adries a maximálna veľkosť môže byť 50 MB. V prípade veľkých webov preto odporúčame vytvoriť tzv. sitemap index, kde budú odkazy na jednotlivé sitemapy (nižšie nájdete ukážku, ako je to riešené vo WP).
- V sitemape by sa mali nachádzať iba indexovateľné, kanonické URL adresy. Zapisovať ich musíte v absolútnom tvare (nie relatívnom).
- Odporúča sa, aby bola sitemap umiestnená v root adresári webu, ideálne s názvom sitemap.xml (nie je to však povinné).
- Sitemapa musí mať UTF-8 kódovanie.
- Je dobrým štandardom pridanie cesty k sitemap.xml súboru do robots.txt.
Ako vytvoriť sitemap
Pri vytváraní sitemap si treba v prvom rade uvedomiť, či ju musíte vytvoriť manuálne alebo používate CMS, pomocou ktorého sa dá nastaviť dynamické generovanie sitemapy. Na oba tieto spôsoby sa pozrieme nižšie.
Manuálne vygenerovanie sitemapy
V prípade, že nepoužívate žiadne redakčný systém a nevygeneruje sa vám sitemap automaticky (pre istotu si skontrolujte adresu vasa-domena.cz/sitemap.xml, či sa tam nenachádza nejaký sitemap súbor), tak si môžete vygenerovať sitemapu “ručne”.
Použiť môžete napríklad desktop aplikáciu ScreamingFrog, ktorý vám vygeneruje sitemap zadarmo vo free verzií, ak má váš web maximálne 500 unikátnych URL adries. V prípade, že má viac, musíte siahnuť po niektorej z platených verzií.
Ak chcete využiť radšej online nástroj, ktorý nacrawluje vaše dôležité vstupné stránky a vygeneruje vám z neho sitemap, tak odporúčame tento: https://www.xml-sitemaps.com/.
Akonáhle máte sitemap.xml súbor vygenerovaný, stiahnite si ho a nahrajte do root adresára na vašom servery.
WordPress
Väčšina CMS systémov ako napr. WordPress, Prestashop, Joomla, Wix, Shopify a podobne umožňujú dynamické vytvorenie súboru sitemap.xml pomocou nejakého pluginu.
V tomto návode sa pozrieme na najpoužívanejší redakčný systém WordPress a na to, ako v ňom vytvoriť XML sitemap pomocou pluginu Yoast SEO.
Prejdite na nasledujúcu stránku: https://cs.wordpress.org/plugins/wordpress-seo/ a stiahnite si plugin Yoast SEO.
Po nainštalovaní a základnom nastavení pluginu prejdite vo WP menu vľavo do SEO -> General -> Features a tam zakliknite XML sitemaps na ON:
Vďaka tomu vám Yoast SEO plugin automaticky vygeneruje sitemap.xml súbor, ktorý je prístupný na adrese vasa-domena.cz/sitemap.xml alebo v prípade sitemap indexu na vasa-domena.cz/sitemap_index.xml.
Ako pridať sitemapu do Google Search Console
Akonáhle máte vytvorený sitemap.xml súbor a nahratý na váš server, môžete ho odoslať Googlu, aby ho čím skôr prešiel. Existuje viacero spôsobov ako oznámiť Googlu, že máte nový sitemap súbor.
Asi najrýchlejším spôsobom je “pingnúť” Google pomocou HTTP GET požiadavku na nasledujúcej URL: https://www.google.com/ping?sitemap=https://vasa-domena.cz/sitemap.xml
V prípade, že ste úspešne odoslali požiadavok, zobrazí sa vám takáto správa:
Ako vidíte, Google odporúča pridať sitemapu do nástroja Google Search Console, aby ste mohli sledovať stav jej prechádzania a prípadné problémy.
Prihláste sa teda do Google Search Console a prejdite vľavo v menu do Pokrytie. Tu môžete vložiť URL adresu vášho sitemap súboru (väčšinou je to sitemap.xml alebo sitemap_index.xml):
A je to. Po odoslaní sitemapy by ste po pár dňoch mali vidieť Stav prechádzania. Ten vás informuje o tom, či je štruktúra danej sitemapy podľa štandardov v poriadku a uvidíte tam hlášku o úspechu alebo neúspechu prechádzania.
Po kliknutí na tlačidlo Zobraziť zahrnutie do indexu alebo kliknutí vľavo v menu na tlačidlo Pokrytie sa dostanete do sekcie s detailnými informáciami o jednotlivých URL adresách, ktoré crawler na vašom webe prechádzal.
Môžete to vyzerať nasledovne:
V prípade, že sa vyskytnú nejaké problémy s prechádzaním a indexovaním vašej stránky, odporúčam si pozrieť tento zoznam možných stavov, ktoré môžu nastať: https://support.google.com/webmasters/answer/7451001#errors&zippy=%2Ccomplete-error-list
Podrobné informácie o sekciách v GSC, ktoré sa týkajú sitemap nájdete aj v tomto videu:
Záver
V prípade, že používate redakčný systém (CMS), tak vám pravdepodobne vytvorenie sitemapy nezaberie veľa času.
V prípade vlastného riešenia webu, budete musieť zvoliť nejakého crawlera, ktorý prebehne vaše vstupné stránky, vygeneruje vám z nich sitemapu a vy ju budete musieť očistiť o podstránky, ktoré nechcete, aby sa nachádzali v sitemape.
Určite nezabudnite po vytvorení sitemapy ju odoslať do Google, aby ju čím skôr Googlebot objavil.