óriási kapu zárva felirattal

Üzenhetsz a keresőrobotoknak – a robots.txt

2021. február 1.

Másnak is hasznos lenne? Oszd meg!

Szeretnéd megmondani a keresőrobotoknak, hogy a weboldalad melyik részeire tilos a belépés? Ne járják be, ne térképezzék fel? A legjobb erre a robots.txt használata. Miért kell ilyet kérni? Hol találod a fájlt? Miért fontos SEO szempontból? Hogyan ellenőrizd a tartalmát?

A robots.txt tippeket ad a keresőrobotoknak, mi lenne a legjobb mód az oldalad bejárására. Meghatározó hatása is lehet a keresőoptimalizálásban, habár nem kötelező eleme a weboldalaknak.

Főképp a nagy, sok aloldalt tartalmazó weboldalaknál érdemes létrehozni. Amennyire hatékony, annyira kell vele vigyázni: sajnos egy rossz utasítás vagy akár egy karakterhiba bármelyik weboldal eredményeit tönkre tudja tenni. Jó hír, hogy nem örökre!

Mi az a robots.txt?

A robots.txt a keresőrobotoknak szóló utasításokat tartalmazó szöveges fájl. Javaslatokat tesz a robotoknak két témában:

  • az oldalad mely részeit ne járják be, ne térképezzék fel
  • az XML oldaltérkép elérhetőségét megadva segítheted munkájukat

Az oldal gyökérkönyvtárában található. Ha ellenőrizni szeretnéd, a böngésző címsorába írd be: oldaladneve.hu/robots.txt. A megnyíló szöveg a robots.txt fájlod tartalma.

Nem kötelező létrehozni. Ha egy weboldal esetében nem elérhető a fájl, akkor a robotok az egész oldalt szabadon bejárják és feltérképezik. Ha tehát nincsenek olyan tartalmaid, ahonnan ki szeretnéd őket zárni, akkor nincs rá szükséged.

A keresőrobotok ezt a fájl ellenőrzik, mielőtt elkezdenek bejárni egy webhelyet, amikor új tartalmak után kutatnak. Habár a nagyobb keresőmotorok általában betartják az utasításait, előfordulhat, hogy egyes esetekben egy részét vagy az egészet figyelmen kívül hagyják. Az utasításokra tehát ne kötelezően betartandó parancsokként, inkább kérésekként gondolj.

Mit érdemes korlátozni és miért?

Az 90-es évek közepén a legelső robotok nagyon nagy terhelést is jelenthettek egy webhelynek, és a weboldalak üzemeltetői szerették volna ezt korlátok közé szorítani. 1994-ben ezért hozták létre a Robots Exclusion Protocol-t, amely erre lehetőséget adott.

Ma a korlátozások legfőbb indoka már nem az okozott webszerver terhelés, hanem a Google által használt “crawl budget”, azaz a bejárásra, feltérképezésre használt erőforrások végessége. A Google minden oldal esetében meghatározza, az oldalak feltérképezésére mennyi időt szán, és hány oldalt hajlandó egy-egy alkalommal feltérképezni. Mivel a Google a piacvezető keresőmotor, mindenki szeretné, hogy a legjobb tartalma biztosan indexelve legyen, kereshetővé váljon. Egy nagy weboldal esetében a robots.txt segíthet a robotok fókuszát a fontosabb oldalak felé irányítani azzal, hogy kizárja őket a kevésbé fontos oldalakról.

Minden egyes oldal esetében végig kell gondolni, van-e olyan tartománya, aminek robotok általi bejárását szükséges korlátozni. Főleg olyan weboldalak lehetnek érintettek, amiknek rengeteg aloldala van, például a webáruházak. A legtöbb kisebb weboldal, blog esetében lehetséges, hogy nincs szükség semmilyen korlátozásra.

Ha nagyon sok oldalad van, akkor a bejárásra rendelkezésre álló erőforrásokat érdemes a fontosabb oldalakra összpontosítani, és a kevésbé fontosakat kihagyni.

Mik jöhetnek szóba? Például:

  • belső kereséssel létrejövő oldalak
  • termékek filterekkel szűrt gyűjtőoldalai
  • webáruházak kosároldalai, fizetési oldalai
  • felhasználói bejelentkezés oldala
  • tesztoldalak

A robots.txt használatának előnyei

  • Megelőzhető a duplikáció, a szándékosan létrehozott duplikált tartalmak bejárásának tiltásával. Ilyen lehet például egy oldal nyomtatható verziója. Fontos viszont, hogy a már indexelt oldalak duplikációját nem tudja megszüntetni.
  • Nagyon nagy oldalaknál szempont lehet az erőforrások kontrollálása szerverterhelés szempontjából.
  • Kontrollálható vele a már említett crawl budget felhasználása.
  • Segítheted még jobban a bejárást: megadhatod az oldaltérkép(ek) elérhetőségét.

Mire nem alkalmas a robots.txt?

Nem alkalmas érzékeny, személyes adatok “elrejtésére”. Az utasítások nem védenek meg a rosszindulatú robotokkal szemben! A “jóindulatú”, nagy keresőmotorok által működtetett robotok szinte mindig figyelembe veszik a tartalmát, azonban a rosszindulatú botok teljesen figyelmen kívül hagyják.

A robots.txt nem alkalmas oldalak indexelésének a tiltására. A robots.txt-ben az oldal egyes részeinek bejárása tiltható meg, azaz a robotok nem térképezik fel ezeket az oldalakat, a tartalmat nem mentik le az indexbe, és ott nem dolgozzák fel.

Ezek az oldalak, fájlok azonban megjelenhetnek keresési találatként, ha a keresőmotorok más forrásokból adatokat tudnak róluk gyűjteni. Ilyenek lehetnek az oldalra vagy fáljra mutató hivatkozások horgonyszövegei például. Egy indexelt, de nem bejárt oldal megjelenése a találati listában nagyon hiányos. Az URL és a SEO cím mellett a leírás csak azt jelzi, hogy bizonyos beállítások miatt nem elérhető ennek az információja.

Korábban már az indexbe mentett oldalt nem tüntet el a találati listáról. Az olyan oldalaidat, amiket nem szeretnél a találatok között viszontlátni, inkább noindex címkével lásd el.

A robots.txt felépítése

A robots.txt sorokból, utasításokból áll. Az utasítások kisebb blokkokat építhetnek fel. Az egyes keresőrobotok különbözőképpen követhetik az utasításokat. Az egyes sorok, utasítások bemutatása után találsz néhány példát, magyarázattal.

A robots.txt kétféle blokkból állhat: bejárásra vonatkozó blokk(ok)ból és oldaltérkép(ek) elérését megadó blokk(ok)ból.

User-agent

Egy bejárásra vonatkozó blokk első sora mindig azt tartalmazza, mely keresőrobotokra vonatkoznak a következő utasítások. Ha minden keresőrobotot egyszerre céloz, akkor használható az általános helyettesítő jel, a *. Ha csak bizonyos robotokat, akkor azokat fel kell sorolni. Ilyenek például a Googlebot (Google), Slurp (Yahoo), Bingbot (Bing), stb. Rengeteg robotot sorol fel például a Robot Adatbázis. Néhány keresőmotornak több robotja is van. Ilyen például a Google is: a Googlebot az organikus találatokhoz járja be az oldalakat, de például a Googlebot-Image a képkereséshez térképezi fel a képeket.

Ezután találhatók azoknak az utasításoknak a sorai, amelyek erre a robotra vonatkoznak. Két User-agent sor között minden utasítás az első User-agent sorban megadott keresőrobotokra vonatkozik.

Disallow

Ebben az utasításban lehet megadni, mely tartományokhoz, oldalakhoz, fájlokhoz tiltott a hozzáférés az előzőleg megjelölt keresőrobotra vonatkozóan. Több ilyet is fel lehet sorolni, egymás alá, több sorban. A Disallow: után az elérési utat kell megadni, amire a korlátozás vonatkozik. Ha a Disallow: után nincs semmi, akkor minden bejárható.

Az elérési út megadásakor az oldal főkönyvtárát értjük az út elejére, és ehhez képest kell relatív utat megadni. Fontos, hogy az elérési utat csak a legnagyobb érintett könyvtárig kell leírni, ebbe automatikusan bele lesz értve azon belül minden alkönyvtár és fájl ezekben a könyvtárakban.

Allow

A Disallow utasítás ellentéte. Megadható segítségével, hogy mely oldal, állomány, könyvtár bejárható. Jelenleg csak a Google és a Bing veszi figyelembe. Felülírja a Disallow tartalmát. Ennek segítségével lehet egy-egy letiltott könyvtáron belül bejárható kivételeket definiálni.

Crawl-delay

Megadhatod, hány másodpercet (x) várjon egy robot két oldal bejárása között. Célja a webszerver túlterhelésének elkerülése úgy, hogy nem enged egyszerre túl sok kérést lefuttatni a webszerver felé nagyon rövid idő alatt. Nem minden robot veszi figyelembe, így például a Googlebot sem. Az egyes robotok különböző módon értelmezik. A Bing és a Yahoo robotja például minden x másodperces időtartam alatt egyetlen oldalt jár be. A Yandex robotja pedig minimum ennyi időt vár az oldalak bejárása között.

Nagyon ritka esetben ajánlott a használata, mivel a modern robotok már nem okoznak túlterhelést.

Sitemap

Ebben a sorban adhatod meg az oldaltérkép elérési útvonalát. Az utasításokkal ellentétben itt abszolút elérési utat kell megadni.

Helyettesítő jel: *

A * helyettesítő jel helyett bármilyen karaktersorozat állhat az utasításokban. Nemcsak a User-agent sorban használható, hanem az elérési utak megadásakor is. Ott a Google, Bing, és a Yahoo robotja tudja értelmezni.

Sorvég jel: $

A $ jel az URL végét jelenti. Ha például az összes .pdf fájl bejárását szeretnéd korlátozni, akkor az ennek a segítségével adható meg.

Komment: #

A # jellel kezdődő sorokat egyik robot sem veszi figyelembe. Ezek a sorok az emberi olvasóknak szólnak.

Példák robots.txt utasításokra

User-agent: *
Disallow:

Az összes keresőrobotnak teljes bejárhatóságot biztosít az oldal minden részére. Ez egyébként a bejárhatóságra vonatkozó alapeset, tehát ugyanezt jelenti, ha a robots.txt teljesen üres vagy teljesen hiányzik.


User-agent: *
Allow: /

Pontosan ugyanazt jelenti, mint az előbbi példa, az összes keresőrobotnak bejárhatóvá teszi az egész oldalt.


User-agent: *
Disallow: /

Az összes keresőrobotnak megtilt minden bejárást, tehát a teljes webhely kimarad a feltérképezésből és így az oldal teljes tartalma kimarad az indexbeli feldolgozásból. Volt róla szó, hogy ettől még a találati listában megjelenhet, nagyon hiányos adatokkal.


User-agent: Googlebot
User-agent: Slurp
Disallow: /szigoruan-bizalmas
/
Disallow: /kivetel/teknoc-kep.jpg$

A Google és a Yahoo robotja bejárhat mindent, kivéve a szigoruan-bizalmas nevű mappa teljes tartalmát, beleértve annak almappáit is, és nem térképezhetik fel a teknoc-kep.jpg fájlt a kivetel mappában.


User-agent: Bingbot
Disallow: *?

A Bing robotjára vonatkozó utasítás, ami kizárja minden olyan könyvtárból, aminek az elérési útjában bárhol szerepel a ? karakter. (Ilyenek lehetnek például egy webáruház esetében a filter használatával létrejövő URL-ek.)


User-agent: *
Disallow: /*.pdf$
Disallow: /*.png$

Ez az utasítás tehát minden keresőrobotra vonatkozik, és korlátozza az egész oldalon az összes oldal bejárását, amelynek címe .pdf-re vagy .png-re végződik. Így például különböző fájlformátumok feltérképezése tiltható.


User-agent: *
Allow: /media/fontos-fajl.pdf
Disallow: /media/

Az utasítás minden keresőrobotra vonatkozik, a media könyvtár és annak alkönyvtárai ki vannak zárva a bejárásból. A Google és a Bing robotja viszont értelmezni tudja, hogy a media könyvtáron belül a fontos-fajl.pdf feltérképezhető, indexbe menthető. Ezzel a módszerrel engedélyezni lehet egyetlen fájl feltérképezését egy egyébként feltérképezésből kizárt könyvtárban.

Ha Allow és Disallow utasítást használsz egyszerre, akkor fontos, hogy ne használj * helyettesítő jelet ezekben a sorokban, mert könnyen logikai ellentmondást okozhat. Logikai ellentmondások esetén az egyes robotok különböző módokon viselkedhetnek.


User-agent: msnbot
Disallow: /mobile/

User-agent: *
Disallow: /contest
Disallow: /static/
Disallow: /embed/

User-agent: Slurp
Disallow: /


User-agent: Googlebot
User-agent: Bingbot
Disallow: /contest
Disallow: /static/

A robots.txt több utasítás szakaszt is tartalmazhat, a különböző robotoknak.

Minden keresőrobotra egy szakasz lehet érvényes. Ha van pl. Googlebot szakasz, akkor az már nem veszi figyelembe a * szakasz tartalmát.

A Google, a Bing és több nagyobb keresőrobot azt az utasítást követi, amelyik leginkább illik rá az összes utasítás közül (a példában az utolsó szakaszban). Azonban vannak olyan robotok, amik az első, rájuk is érvényes utasításokat követik (ha az első szakasz User-agent: *, azaz minden robotra vonatkozik, akkor később hiába van specifikus, azt már nem veszi figyelembe).

Ezért fontos a sorrend: ha az msnbot az első rá passzoló utasítást követi, akkor ha a User-agent: * szakasz lenne legelöl, ez érvényes lenne rá, így a későbbi User-agent: msnbot szakaszt már nem venné figyelembe.


Sitemap: https://nektonikseo.hu/sitemap_index.xml

Ehhez a weboldalhoz például így kell megadni az oldaltérkép elérhetőségét. Több oldaltérkép is megadható egymás alatt.

Legjobb gyakorlat a robots.txt tartalmával kapcsolatban

  • A fájl neve pontosan robots.txt legyen, kisbetűkkel.
  • Minden változtatást többször gondolj át és ellenőrizz. Ne tedd véletlenül az oldalad egészét vagy egy részét elérhetetlenné a robotok számára. Szerkesztés előtt mentsd el a fájl eredeti változatát. Ha esetleg nem a tervezettnek megfelelően sikerülnek a dolgok, ezt vissza tudd másolni.
  • A gyökérkönyvtárban helyezd el. Csak arra a domain-re vonatkozik majd, amelyiknek a gyökérkönyvtárában megtalálható (beleértve, hogy http vagy https). Ha aldomaineket is használsz, oda külön robots.txt fájlokat kell elhelyezni.
  • Lehetőleg kerüld el a Crawl-delay használatát, amennyire csak tudod.
  • Ne korlátozd a CSS-t, JavaScriptet vagy egyéb szkripteket tartalmazó mappákat. Főképp a mobilra optimalizáltság felismerésében fontosak.
  • Csak egyetlen robots.txt fájlod legyen. Ha már létezik, akkor azt szerkeszd, ne újat tölts fel!

Leggyakrabban előforduló hibák a robots.txt-vel kapcsolatban

  • speciális karakterek (* és $) nem megfelelő használata, ha nem egyértelmű, egymásnak ellentmondó utasítások jönnek létre
  • elírások
  • olyan utasítások szerepeltetése a robots.txt-ben, amelyek nem ebbe a fájlba valók, illetve nem megfelelő utasításformátum használata
  • ha olyan oldalad van, amit szeretnél az indexből eltávolítani, akkor a noindex címke használata után ne tiltsd le az oldal bejárását. A robotok a tiltás miatt nem tudják beolvasni a noindex címkét

Ha a Google Search Console és robots.txt ellentmondanak egymásnak…

Abban az esetben, ha ellentmond egymásnak a robots.txt és a Search Console valamely beállítása, akkor a Google általában a Search Console-ban megtett beállításokat követi.

WordPress és robots.txt

Ha létrehozol egy WordPress oldalt, akkor az automatikusan létrehoz egy virtuális robots.txt fájlt, ami az oldaladneve.hu/robots.txt címen érhető el. Ezt a fájlt azonban nem tudod szerkeszteni, mert nem találod meg a rendszer fájljai között, csak az említett linken tudod elérni.

Ha létrehozol egy szöveges fájlt robots.txt néven, és feltöltöd a gyökérkönyvtárba, akkor ez, a valódi fájl lesz az érvényes utasítás. Ezt már tetszés szerint szerkesztheted.

A robots.txt fájl létrehozásában egy SEO plugin is tud segíteni, a RankMath és a Yoast is lehetőséget ad arra, hogy ha nincs létrehozott, feltöltött fájl, akkor a pluginban tudj szerkeszteni egy virtuálisat.

Mókás robot utasítások

Érdemes lehet rápillantani a kedvenc weboldalaid robots.txt fájljára, lehet, hogy meglepetés vár! Itt találsz egy csokorra való humoros szövegezést összegyűjtve!

Lehet, hogy ennek a weboldalnak is érdekes a robots.txt-je. Ellenőrizted már?

A NEKTONIK minden anyaga, cikke, ajánlata egy helyen elérhető, keresd fel azt az oldalt is!

Másnak is hasznos lenne? Oszd meg!

Hasonló témájú cikkek keresése: