Roboti vyhledávačů
V ČR jsou důležití dva roboti vyhledávačů – Googlebot a Seznambot. Oba patří k vychovaným crawlerům , je tedy možné částečně jejich chování na webu řídit.
Procházení webu
Můžeme ovlivnit, jak bude robot vyhledávače webem procházet (tzv. ho crawlovat):
- Crawlerům můžeme zakázat procházení celého webu nebo některých částí pomocí souboru robots.txt.
- Chceme-li robotovi zakázat procházení odkazů na nějaké stránce, použijeme meta tag robots.
- Procházení konkrétního odkazu zakážeme crawlerům pomocí atributem
rel
s hodnotou nofollow.
Dříve se k omezení procházení používal také JavaScript, ale ten už dnes roboti vyhledávačů zvládají (minimálně Googlebot ho umí výborně a Seznambot se stále zlepšuje).
E-book za mail
Získejte podrobný návod Jak na e-mail marketing (52 stran). Více informací.
Žádný spam, jen užitečný obsah. Newsletter posílám cca 8× ročně. Odhlásíte se kdykoliv.
Indexace stránek
Dále můžeme také ovlivnit, zda si bude robot stránku ukládat do indexu (či zda ji z něj případně vyhodí):
- Pomocí výše zmíněného meta tagu robots – funguje pro HTML stránky, hodnota
index
činoindex
určuje, jak se má crawler zachovat. - Pomocí HTTP hlavičky X-Robots-Tag – ta se používá u obrázků či dokumentů jiného typu, než je HTML (třeba PDF souborů).
- Pomocí stavových kódů – typicky 404, pokud jsme stránku definitivně smazali či 301, pokud jsme ji přesunuli na jinou adresu.
- Pomocí kanonizace URL – používá se, pokud máme na webu duplicitní obsah (tj. stejný obsah na dvou různých adresách), takto můžeme crawlerovi oznámit, která adresa je ta hlavní a on jí pak z té druhé přičte link juice.
Jak často chodí na web chodí
Obecně platí, že čím významnější je web, tím častěji na něj vyhledávací crawler přichází. U významných webů chodí roboti na návštěvu denně, u jiných týdně a u málo významných jednou za měsíc. Liší se také jejich ochota stránky procházet (crawl budget).
Škodliví roboti
Někteří crawleři si stahují obrovské množství stránek najednou a tím mohou web přetěžovat. Známý je tím třeba robot SEMrushBot. Řešení je následující:
- Zjistíme si user agenta a IP adresu crawlera ze serverových access logů.
- Crawlerovi zakážeme procházení webu v souboru robots.txt. Na některé roboty to stačí.
- Pokud crawler zákaz procházení nerespektuje, zakážeme mu přístup natvrdo přímo na serveru, v souboru .htaccess.
Pokud si pak škodlivý robot na serveru vyžádá nějakou stránku, server ho jednoduše odmítne obsloužit.
Pořiďte si vlastního crawlera
Pokud si chcete vyzkoušet, jak takový crawler pracuje, můžete si stáhnout program Xenu's Link Sleuth. Je k dispozici zdarma a funguje naprosto stejně jako jiní roboti. Vypustíte ho na úvodní stránku webu, on si na ní najde všechny odkazy, odkázané stránky proleze a najde na nich odkazy, ty proleze… Až dokud neprojde všechny stránky zadaného webu.
Nakonec vám Xenu vyhodí užitečný report o všech odkazech, které našel a které vrací chybu 404, nebo které se někam přesměrovávají. Můžete je tedy na webu opravit a hned budete pro roboty vyhledávačů důvěryhodnější
Podobně funguje také poněkud novější robot SEO Macroscope, který je k dispozici také zdarma, nebo oblíbený a osvědčený Screaming Frog, který už je ale placený.