Súbory robots.txt: všetko podstatné, čo o nich potrebujete vedieť

seoanalyzy 26. augusta 2022 0 Komentáre

Ide o súbor s informáciami a pokynmi pre vyhľadávače. Vďaka robots.txt môžete mať pod kontrolou to, ako Google roboty a crawl programy prechádzajú webové stránky. Pomocou jednotlivých príkazov ich nasmerujete, ako sa majú správať.

 

 

Ako fungujú súbory robots.txt?

Ich hlavnou úlohou je prechádzanie (crawling) webových stránok s cieľom objavenia obsahu, jeho zaindexovania a následného zobrazovania pre používateľov vo vyhľadávači. Funguje to v skratke nasledovne: Robot navštívi váš web a prejde určité množstvo URL adries, ktorých obsah si zároveň sťahuje. Pokiaľ ho vyhodnotí ako užitočný, pošle ho k indexácii, čím umožní zobrazenie vo výsledkoch vyhľadávania. Akonáhle sa crawler dostane na stránku, tak hľadá súbor robots.txt v jej koreňovom adresári. V prípade, že ho nenájde, automaticky sem má prístup. Ak ho však nastavíte spolu s konkrétnymi značkami, dáte im pokyn, ako sa správať, prípadne úplne zamedzíte ich vstupu.

 

Na čo slúžia robots.txt?

  • Obmedzujú spôsob, akým roboty prehľadávajú webové stránky – prostredníctvom súborov robots.txt môžete určiť, ktoré stránky a súbory roboty prehľadávajú, potenciálne indexujú a ku ktorým, naopak, nemajú prístup.
  • Optimalizujú crawl budget – resp. rozpočet na indexové prehľadávanie vďaka vylučovaniu stránok ako sú formuláre, prihlasovacie stránky, či filtre. Crawl budget je vlastne počet URL, ktoré crawler vyhľadávača prejde za určitú dobu. Toto číslo si viete zistiť v Google Search Console, v štatistikách prechádzania. Ak chcete vylepšiť hodnotu svojho crawl budgetu, snažte sa o prehľadnú architektúru webu.
  • Zabezpečia úspory pri prenose – teda pomocou záznamov robots.txt sa z cestičiek, po ktorých sa roboti pohybujú, odstránia celé podadresáre alebo špecifické typy súborov.
  • Zabraňujú duplicitnému obsahu – pokiaľ máte na stránke väčšie množstvo interne duplikovaného obsahu a zároveň URL schéma umožňuje jeho jednoznačnú identifikáciu, môžete dať vyhľadávačom signál, aby túto časť neprehľadávali. 
  • Chránia vybrané sekcie pred príliš ľahkým prístupom a vybraný obsah pred únikom von.
  • Slúžia ako prevencia pred zaindexovaním vstupných stránok (administrácia, citlivé údaje používateľov).
  • Môžu zabrániť zlyhaniu servera.

 

Ako by mal vyzerať súbor robots.txt, plus základné príkazy

Malo by ísť o textový súbor umiestnený v koreňovom adresári webovej stránky, ktorej sa týka. Štandardom je tiež uvádzanie umiestnenia sitemap súborov v robots.txt. Najbežnejšími príkazmi sú:

Robots txt. user-agent – vďaka nemu môžeme vytýčiť, pre ktorých robotov je dané pravidlo určené. 

Robots txt. allow a disallow – ustanovujú, ku ktorým oblastiam by mal mať robot povolený prístup a kde, naopak, nie je vítaný.

Robots txt. noindex – nezabráni síce prehľadávaniu obsahu, ale táto značka v súbore robots.txt inštruuje, aby sa nezahŕňal do výsledkov vyhľadávania.

 

Ako overiť, či vám súbor robots.txt funguje?

Posvietite si na to v Google Search Console. Pokiaľ tam máte web pridaný a overený, prejdite na nasledovný nástroj. Vyberte doménu a vzápätí sa objaví váš súbor robots.txt tak, ako ho vidí Googlebot. V spodnej časti potom vložíte podstránku, pre ktorú chcete skontrolovať či je blokovaná alebo povolená. 

 

Potrebujete pomoc s vaším webom alebo e-shopom na poli SEO? Riešite indexáciu stránok alebo niečo iné? Nech už je váš problém v tejto oblasti akýkoľvek, obráťte sa na našich SEO špecialistov. Využite možnosť konzultácie zdarma.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená.