Co je to Sitemap.xml a jak ji vytvořit

Naposledy změněno: 27.07.2021
Doba čtení: 6 min
Štítky:

Sitemap (mapa stránky) je XML soubor, který by měl obsahovat informace o všech vašich důležitých vstupních stránkách, souborech, obrázcích nebo videích, které chcete, aby Google objevil, prošel a zaindexoval. 

Zjednodušeně řečeno, jak už z názvu vyplývá („map“), jedná se o mapu, pomocí které se umí orientovat vyhledávací robot (crawler) na vašem webu a objevit i ty stránky, ke kterým se ještě skrz interní prolinkování nedostal.

Dobrým standardem je umístění odkazu (absolutní cesty) na vytvořený soubor sitemap.xml v souboru robots.txt. Zápis v souboru robots.txt může vypadat následovně:

Sitemap: https://www.marketingminer.com/sitemap.xml 

Jak vypadá XML sitemap? 

Nejčastěji vypadá klasicky vygenerovaný sitemap soubor zhruba takto: 

Ukázka sitemap.xml souboru

Avšak v případě různých CMS může vypadat samozřejmě jinak. Účel však plní vždy stejný: 

YoastSEO sitemap.xml ukázka

Na obrázku výše vidíte ukázku vygenerované XML sitemap ve WordPressu pomocí pluginu YoastSEO. Vzhled sitemapy není podstatný, důležitá je její funkce. 

Sitemap index

Jedna sitemap může obsahovat maximálně 50 000 URL adres, jakmile překročíte tuto hranici, vytvořte další sitemapu. V případě, že váš web obsahuje více sitemap souborů, je dobrým zvykem vytvoření tzv. sitemap index. Sitemap index je klasický XML soubor (jako klasická sitemapa), který obsahuje odkazy na jednotlivé sitemap soubory. 

Ukázka zápisu sitemap index souboru:

<?xml version="1.0" encoding="UTF-8"?>
  <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <sitemap>
      <loc>https://www.marketingminer.com/sitemap1.xml</loc>
    </sitemap>
    <sitemap>
      <loc>https://www.marketingminer.com/sitemap2.xml.gz</loc>
    </sitemap>
  </sitemapindex>

Teď si pojďme vysvětlit jednotlivé parametry, které může klasická sitemap obsahovat. 

URL set

Každá sitemap musí obsahovat značku <urlset>, v níž je deklarované, jaký protokol se používá. Standardně je to verze 0.9, která je podporovaná většinou vyhledávačů.

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

URL

Dostáváme se k nadřazené značce <url>, která může v sobě obsahovat tyto podřazené značky:

  • <loc> – absolutní hodnota URL adresy. Měli byste sem dávat jen kanonické URL adresy, které chcete zaindexovat. Toto je jediný povinný parametr ve značce <url>.
  • <lastmod> – pomocí této značky můžete specifikovat, kdy byl obsah na dané URL naposledy upravený. Na zápis musíte využít W3C datový formát ve tvaru yyyy-mm-dd.
  • <priority> – priorita dané URL adresy vůči ostatním URL adresám v sitemapě. Hodnota může být od 0.0 do 1.0. – čím vyšší číslo, tím vyšší priorita.
  • <changefreq> – informace, jak často se mění obsah na dané URL, aby crawler orientačně věděl, jak často se má na danou URL vracet. Hodnoty mohou být následovné: always, hourly, daily, weekly, monthly, yearly, never.

Ukázka zápisu:

<url>
    <loc>https://www.marketingminer.com/cs</loc>
    <lastmod>2020-10-08T13:32:20+00:00</lastmod>
    <priority>1.00</priority>
    <changefreq>monthly</changefreq>
</url>

Jiné typy sitemap

V sitemap.xml se nemusí nacházet jen odkazy na vstupní stránky, ale i na multimediální soubory. Existují i tyto jiné typy sitemap: 

  • Video sitemap – sitemap obsahující informace o videích.
  • Image sitemap – sitemap obsahující podrobné informace o obrázcích.
  • Google News sitemap – sitemap vhodná především pro velká média, která potřebují rychle zaindexovat nový obsah a chtějí se dostat do služby Google News

Video sitemap

Video sitemap je vynikající způsob, jakým dokážete informovat crawlera o videích, která hostujete na vašem serveru, a aby pochopil jejich obsah. Do video sitemap doporučujeme přidávat pouze čerstvá videa. 

Ukázka zápisu video sitemap, která obsahuje všechny povinné parametry:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
        xmlns:video="http://www.google.com/schemas/sitemap-video/1.1">
   <url>
     <loc>https://www.marketingminer.com/video/sitemap.html</loc>
     <video:video>                       <video:thumbnail_loc>https://www.marketingminer.com.com/thumbs/sitemap.jpg</video:thumbnail_loc>
       <video:title>Ukázka XML sitemap souboru</video:title>
       <video:description>Ukázka co je to sitemap.xml a jak si ji vytvořit krok za krokem
       </video:description>
       <video:content_loc>
          https://youtube.com/sitemap_video.mp4</video:content_loc>
       <video:player_loc>
         https://www.example.com/videoplayer.php?sitemap_video=123</video:player_loc>
      </video:video>
   </url>
</urlset>
TIP: Podrobné informace o video sitemap včetně dalších volitelných parametrů najdete v oficiální dokumentaci od Google: https://developers.google.com/search/docs/advanced/sitemaps/video-sitemaps.

Image sitemap

Vytvoření Image sitemap (obrázková sitemap) je vynikající způsob jak informovat vyhledávač o obrázcích, na které by se jejich crawler nedostal. Jedná se například o obrázky, které jsou přístupné až přes nějaký JavaScript kód. 

Ukázka zápisu image sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
        xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">
  <url>
    <loc>https://www.marketingminer.com.com/image_sitemap.html</loc>
    <image:image>
      <image:loc>https://www.marketingminer.com.com/sitemap.jpg</image:loc>
    </image:image>
   </url>
</urlset>

Spolu s vyplněným alt tagem vám pomůže sitemap s tím, aby crawler lépe pochopil smysl daného obrázku. 

TIP: Podrobné informace a další volitelné parametry k image sitemap najdete tady: https://developers.google.com/search/docs/advanced/sitemaps/image-sitemaps

Google News sitemap

Pokud chcete zvýšit šanci na zobrazování vašeho obsahu ve službě od Google, která agreguje zprávy – Google News, tak byste měli zvážit vytvoření speciální sitemap právě pro tento účel. 

Ukázka zápisu Google News sitemap: 

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
        xmlns:news="http://www.google.com/schemas/sitemap-news/0.9">
  <url>
   <loc>https://www.marketingminer.com/cs/blog/analyza-klicovych-slov.html</loc>
   <news:news>
   <news:publication>
     <news:name>Analýza klíčových slov</news:name>
     <news:language>cs</news:language>
   </news:publication>
   <news:publication_date>2021-04-13</news:publication_date>
     <news:title>Analýza klíčových slov krok za krokem</news:title>
    </news:news>
  </url>
</urlset>

Podmínkou je, abyste do Google News sitemapy vložili pouze URL adresy, jejichž obsah není starší než 2 dny. Po uplynutí doby 2 dní od publikace byste měli automaticky smazat tuto URL z dané Google News sitemap, aby se vám tam nehromadily starší články, ale byl tam vždy pouze nejčerstvější obsah.

TIP: Podrobné informace najdete opět v Google dokumentaci: https://developers.google.com/search/docs/advanced/sitemaps/news-sitemap.  

Kdo potřebuje soubor sitemap.xml? 

Google se orientuje tak, že prochází odkazy a pomocí nich hledá nové stránky. Pokud však máte nový web, který zatím nemá žádnou historii, nevedou na něj externí odkazy a není dobře interně prolinkovaný, tak je pro crawlera náročné objevit všechny podstránky. 

V tomto případě přichází na scénu právě sitemap.xml, kde můžete specifikovat všechny důležité vstupní stránky, které chcete, aby crawler prošel, a v případě, že on sám je uzná za vhodné, tak je i zařadí do indexu a začne zobrazovat ve výsledcích vyhledávání. 

V těchto případech je dobré vytvořit soubor sitemap.xml: 

  • Nový web – jak jsme už výše uváděli, pokud máte nový web, určitě si vytvořte XML sitemap, který odešlete do Google. Díky tomu je větší šance, že Google dříve projde vaše důležité vstupní stránky a zaindexuje je. 
  • Velký web – v případě, že máte velké množství vstupních stránek a nemáte dost dobře řešené interní prolinkování, tak doporučíme dynamicky přidávat nové vstupní stránky do sitemap, abyste zajistili to, že crawler dané vstupní stránky nepřehlédne. Typicky se to týká e-shopů.
  • Web generující velké množství čerstvého obsahu – weby, které generují velké množství čerstvého obsahu (často zpravodajské weby) by měly mít určitě sitemapu, protože v případě čerstvého obsahu je důležité, aby crawler rychle prošel danou „novinku“, zaindexoval ji a zobrazoval ve výsledcích vyhledávání. V případě zpravodajských webů se jedná právě o Google News Sitemap, kterou jsme výše uvedli. 
  • Multimediální obsah – opět, jak jsme výše uvedli, pokud máte těžko přístupný multimediální obsah (například přes JS), je lepší vytvořit speciální druhy sitemap (videos, images…).

Důležité informace o sitemapě

  • To, že máte URL adresu v sitemapě, nezaručuje, že ji Google zaindexuje a začne zobrazovat ve výsledcích vyhledávání.
  • Jedna sitemap může obsahovat maximálně 50 000 URL adres a maximální velikost může být 50 MB. V případě velkých webů proto doporučujeme vytvořit tzv. sitemap index, kde budou odkazy na jednotlivé sitemapy (níže najdete ukázku, jak je to řešené ve WP). 
  • V sitemapě by se měly nacházet jen indexovatelné, kanonické URL adresy. Zapisovat je musíte v absolutním tvaru (ne relativním). 
  • Doporučuje se, aby byla sitemap umístěná v root adresáři webu, ideálně s názvem sitemap.xml (není to však povinné).
  • Sitemapa musí mít UTF-8 kódování.
  • Je dobrým standardem přidání cesty k sitemap.xml souboru do robots.txt.

Jak vytvořit sitemap 

Při vytváření sitemap je třeba si v první řadě uvědomit, zda ji musíte vytvořit manuálně, nebo používáte CMS, pomocí kterého se dá nastavit dynamické generování sitemapy. Na oba tyto způsoby se podíváme níže.

Manuální vygenerování sitemapy

V případě, že nepoužíváte žádný redakční systém a nevygeneruje se vám sitemap automaticky (pro jistotu si zkontrolujte adresu vase-domena.cz/sitemap.xml, zda se tam nenachází nějaký sitemap soubor), tak si můžete vygenerovat sitemapu „ručně“.

Použít můžete například desktop aplikaci ScreamingFrog, která vám vygeneruje sitemap zdarma ve free verzi, pokud má váš web maximálně 500 unikátních URL adres. V případě, že má víc, musíte sáhnout po některé z placených verzí.

Pokud chcete využít raději online nástroj, který nacrawluje vaše důležité vstupní stránky a vygeneruje vám z něho sitemap, tak doporučíme tento: https://www.xml-sitemaps.com/

TIP: Tady najdete seznam doporučených nástrojů od Google na vygenerování sitemap: https://code.google.com/archive/p/sitemap-generators/wikis/SitemapGenerators.wiki.  

Jakmile máte sitemap.xml soubor vygenerovaný, stáhněte si ho a nahrajte do root adresáře na vašem serveru. 

TIP: Crawler nikdy nemusí najít všechny důležité vstupní stránky, proto doporučím vždy zkontrolovat daný XML sitemap soubor a projít jednotlivé URL adresy, zda se tam nacházejí skutečně jen ty důležité stránky, které chcete zaindexovat.  

WordPress

Většina CMS systémů jako např. WordPress, Prestashop, Joomla, Wix, Shopify a podobně umožňuje dynamické vytvoření souboru sitemap.xml pomocí nějakého pluginu. 

V tomto návodu se podíváme na nejpoužívanější redakční systém WordPress a na to, jak v něm vytvořit XML sitemap pomocí pluginu Yoast SEO.

Přejděte na následující stránku: https://cs.wordpress.org/plugins/wordpress-seo/ a stáhněte si plugin Yoast SEO.

Po nainstalování a základním nastavení pluginu přejděte ve WP menu vlevo do SEO -> General -> Features a tam zaklikněte XML sitemaps na ON:

WordPress YoastSEO XML sitemap

Díky tomu vám Yoast SEO plugin automaticky vygeneruje sitemap.xml soubor, který je přístupný na adrese vase-domena.cz/sitemap.xml nebo v případě sitemap indexu na vase-domena.cz/sitemap_index.xml.

Jak přidat sitemapu do Google Search Console

Jakmile máte vytvořený sitemap.xml soubor a nahraný na váš server, můžete ho odeslat Googlu, aby ho co nejdříve prošel. Existuje více způsobů jak oznámit Googlu, že máte nový sitemap soubor. 

Asi nejrychlejším způsobem je „pingnout“ Google pomocí HTTP GET požadavku na následující URL: https://www.google.com/ping?sitemap=https://vase-domena.cz/sitemap.xml

V případě, že jste úspěšně odeslali požadavek, zobrazí se vám tato zpráva: 

Google ping sitemap xml

Jak vidíte, Google doporučí přidat sitemapu do nástroje Google Search Console, abyste mohli sledovat stav jejího procházení a případné problémy. 

Přihlaste se tedy do Google Search Console a přejděte vlevo v menu do Pokrytí. Tady můžete vložit URL adresu vašeho sitemap souboru (většinou je to sitemap.xml nebo sitemap_index.xml):

Přidání sitemap.xml do Google Search Console

A je to. Po odeslání sitemapy byste po pár dnech měli vidět Stav procházení. Ten vás informuje o tom, zda je struktura dané sitemapy podle standardů v pořádku a uvidíte tam hlášku o úspěchu nebo neúspěchu procházení.

Stav procházení v GSC

Po kliknutí na tlačítko Zobrazit zahrnutí do indexu nebo kliknutí vlevo v menu na tlačítko Pokrytí se dostanete do sekce s detailními informacemi o jednotlivých URL adresách, které crawler na vašem webu procházel.

Může to vypadat následovně: 

Zobrazit zahrnutí do indexu Google

V případě, že se vyskytnou nějaké problémy s procházením a indexováním vaší stránky, doporučuji si projít tento seznam možných stavů, které mohou nastat: https://support.google.com/webmasters/answer/7451001#errors&zippy=%2Ccomplete-error-list 

Podrobné informace o sekcích v GSC, které se týkají sitemap, najdete i v tomto videu: 

Závěr

V případě, že používáte redakční systém (CMS), tak vám pravděpodobně vytvoření sitemapy nezabere moc času. 

V případě vlastního řešení webu budete muset zvolit nějakého crawlera, který proběhne vaše vstupní stránky, vygeneruje vám z nich sitemapu a vy ji budete muset očistit o podstránky, které nechcete, aby se nacházely v sitemapě. 

Určitě nezapomeňte po vytvoření sitemapy ji odeslat do Google, aby ji co nejdříve Googlebot objevil. 

Byl tento článek užitečný?
Ne

Další články

Předchozí: Co je featured snippet a jak se do něho dostat
Další: Robots.txt – co to je a jak funguje
Máte otázku? Prohledejte naši nápovědu.