Procházení webu, neboli crawling, je proces, během kterého internetové vyhledávače prostřednictvím speciálních progamů, tzv. robotů (crawlerů) navštěvují jednotlivé stránky webu. Každou stránku si stáhnou a najdou na ní odkazy na další stránky webu. Crawling pobíhá i na stránkách, které už vyhledávač zná, aby tak objevil změny a čerstvý obsah.
Nové a změněné stránky následně vyhledávač indexuje, tj. ukládá si je do své databáze, ze které pak vrací výsledky vyhledávání, když mu uživatel položí vyhledávací dotaz.
Jak procházení webu funguje
Jako první si robot vyhledávače stáhne soubor robots.txt, podle kterého zjistí, kam na webu smí a které části má zakázané. Zakázat můžeme robotovi také procházení odkazů na jedné konkrétní stránce, dělá se to pomocí meta tagu robots. A nakonec, robotovi také můžeme doporučit u konkrétních odkazů, aby je nesledoval dále, označíme-li je jako nofollow.
A naopak, procházení webu může robotovi majitel webu usnadnit pomocí souboru sitemap.xml, kam uvede odkazy na všechny stránky webu. Robot pak prochází web odkaz po odkazu, až dokud ho celý neprojde, nebo nevyčerpá tzv. crawl budget. Ten si můžete představit jako jakýsi rozpočet, který robot na daný web má. Čím je web z pohledu vyhledávače významnější, tím větší crawl budget mu přidělí a tím častěji se na něj také robot vrací crawlovat.
Jak se robot o webu dozví
Existuje více možností:
- vyhledávač už web zná z předchozí návštěvy
- na web vede alespoň jeden odkaz z jiného webu
- nový web vyhledávači Google oznámíme tím, že přidáme odkaz na soubor sitemap.xml do nástroje Search Console
- vyhledávači Seznam jej můžeme oznámit vyplněním jednoduchého formuláře (jak je asi zřejmé, stačí přidat jen jednu stránku webu)