Mi az a robots.txt fájl és hogyan kell használni?

A robots.txt általános információi

A robots.txt fájl a weboldal gyökér könyvtárában található, ez adja meg a keresőrobotok számára, hogy mely fájlokat és lapokat keressenek fel a honlapon és melyeket ne.

Általában a weboldalak tulajdonosai arra törekszenek, hogy a keresőrobotok észrevegyék weblapjukat, de vannak esetek, amikor ez nem szükséges: például amikor értékes információkat tárolnak egy weboldalon, vagy a sávszélességen próbálnak spórolni azzal, hogy nem engedik indexelni a sok adatot, vagy nagy méretű képeket tartalmazó oldalakat.

Amikor egy keresőrobot rátalál egy weboldalra, elsőként a robots.txt fájlt keresi meg. Ha megtalálta, akkor a keresőrobot ellenőrzi a fájlban található indexelésre vonatkozó utasításokat.

Fontos tudni: Csak egy robots.txt fájl létezhet minden weboldalhoz. Egy hozzáadott domain számára ezt létre kell hozni a megfelelő helyre.

Egy robots.txt fájl sorokból áll, amik két mezőt tartalmaznak: egy sort user-agent névvel (a keresőmotoroknak), és egy vagy több sort, ami az alábbi utasítással kezdődik:

Disallow:

robots.txt-t UNIX formátumba kell létrehozni.

Robots.txt szintaxisának alapjai

Általában egy robot.txt fájl valami ilyesmit tartalmaz:

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~different/

Ebben a példában három mappa (‘/cgi-bin/’, ‘/tmp/’ and ‘/~different/’) indexelése van letiltva.

Fontos tudni: Minden utasítást külön sorba kell írni.

A csillag (*) a User-agent mezőbe írva „bármilyen keresőrobot”-ot jelent. Logikusan a „Disallow:*.gif” vagy a User-agent: Mozilla* nem támogatott. Az ilyen jellegű logikai hibákra figyelni kell, ugyanis ezek a leggyakoribbak.

A másik általános hiba az elgépelt könyvtárak, szoftverazonosítók, hiányzó kettőspontok a user-agent és disallow után stb. Amikor a robots.txt fájl egyre bonyolódik, egyre könnyebb ilyesfajta hibákba esni.

Példák a használatáról

Az egész oldal indexelésének tiltása minden keresőrobottal szemben:

User-agent: *

Disallow: /

Minden keresőrobot számára engedélyezett az egész oldal indexelése:

User-agent: *

Disallow:

Csak bizonyos könyvtárak tiltása az indexeléstől:

User-agent: *

Disallow: /cgi-bin/

Az oldal indexelésének tiltása, egy bizonyos keresőrobot számára:

User-agent: Bot1

Disallow: /

Indexelés engedélyezése egy bizonyos keresőrobot számára és a többi tiltása:

User-agent: Opera 9

Disallow:

User-agent: *

Disallow: /

Minden fájl indexelésnek tiltása, kivéve egyetlen egy:

Ez egy kissé nehézkes, mivel az „Allow”, tehát „engedélyezés” parancs nem létezik. Ehelyett az összes olyan fájlt, amit nem szeretnénk, ha indexelésre kerülnének, egy almappába kell gyűjteni, kivéve azt az egyet, amit szeretnénk indexelni:

User-agent: *

Disallow: /docs/

Robots.txt és SEO

Kép-indexelés tiltás eltávolítása:

Néhány tartalomkezelő szoftver (CMS) esetében előfordul, hogy a robots.txt fájl nem tartalmazza a képek mappát.

Ez a probléma az újabb CMS verzióknál nem fordul elő, de a régebbieket érdemes ellenőrizni.

Ez a tiltás azt jelenti, hogy képei nem lesznek indexelve és nem fognak megjelenni a Google Képkeresőjében, ami pedig káros hatással van a SEO-ra.

Ha ezen változtatni szeretnénk, akkor el kell távolítani a következő sort:

Disallow: /images/

Útvonal megadása a sitemap.xml fájlhoz:

Amennyiben rendelkezik sitemap.xml fájllal (márpedig érdemes), akkor hasznos ha tartalmazza a következő sort a robots.txt fájl:

sitemap: http://www.domain.hu/sitemap.xml

Egyéb tudnivalók

Ne legyen alapértelmezetten blokkolva a CSS, a JavaScript, vagy hasonló szkript. Ez megakadályozza a Googlebotot, hogy megfelelően lefordítsa magának az oldalt és felismerje, hogy az mobilra van optimalizálva.
A fájl arra is használható, hogy megakadályozzuk az egyes oldalak indexelését, mint a bejelentkező vagy a 404-es hibaüzenet oldalak, de ezt inkább a robots meta tagben érdemes megtenni.
Tiltás hozzáadása a robots.txt fájlhoz nem eredményez adat eltávolítást, csak a keresőrobotokat gátolja az indexelésben. Ha van olyan tartalom amit el szeretne távolítani, akkor azt jobb egy meta noindex-szel megtenni.
Főszabályként elmondható, hogy a robots.txt fájlt sose szabad duplikált tartalom kezelésére használni. Vannak jobb megoldások is ennél, mint például egy rel=canonical tag, ami a HTML head-jének a része.
Mindig tartsa észben, hogy a robots.txt fájl nem apróság. Sűrűn előfordul, hogy talál hatékonyabb eszközöket, mint a Bing és a Google webmestereszközök által biztosítottak.

Robots.txt WordPress-hez

Az első alkalommal, amikor tartalmat hoz létre WordPress-en, akkor automatikusan létrejön a robots.txt fájl is. Viszont, ha már létezik egy valódi (nem virtuális) robots.txt fájl a szerveren, akkor ez nem történik meg. Egy virtuális robots.txt fájl valós időben nem létezik a szerveren, az egyetlen elérése a következő linken keresztül történik meg: http://www.onoldala.hu/robots.txt

Alapértelmezetten engedélyezve van a Google Mediabot, viszont rengeteg spambot, valamint néhány alap WordPress mappa és fájl le van tiltva.

Szóval, ha nem hozott létre igazi robots.txt fájlt, tegye meg bármilyen szövegszerkesztővel, majd töltse fel a szerver gyökérkönyvtárába FTP-n keresztül.

Fő WordPress könyvtárak blokkolása

Minden telepített WordPress esetén 3 szabvány könyvtár létezik (wp-content, wp-admin, wp-includes), amiket nem szükséges indexelni.

Azonban, ne blokkolja a teljes wp-content mappát, mivel ez tartalmaz egy „uploads” mappát, ami a weboldal médiafájljait tartalmazza, amiket jobb nem blokkolni. Ezért a következőképp kell eljárni:

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow. /wp-content/plugins/

Disallow: /wp-content/themes/

Weboldal struktúrája alapján történő blokkolás

Minden blogot többféleképpen lehet blokkolni:

a; kategóriák alapján

b; címkék alapján

c; mindkettő alapján, vagy egyik alapján sem

d; adatbázis-archívumok alapján

I. Amennyiben a weboldal kategória-strukturált, nem szükséges a címke archívumok indexelése.

A címke-bázist a Beállítások, majd a premalinkek fülre kattintva éri el. Ha a mező üres a címke simán „tag”:

Disallow: /tag/

II. Amennyiben a weboldal címke-strukturált, blokkolni kell a kategória archívumot. Keresse meg a kategória részt és a következő utasítást alkalmazza:

Disallow: /category/

III. Amennyiben a weboldal egyidejűleg kategória és címke alapú is, akkor nincs szükség utasításokra. Abban az esetben, ha egyik sincs használatban, mindkettőt le kell tiltani!

Disallow: /tags/

Disallow: /category/

IV. Amennyiben a weboldal adatbázis-strukturált, azok következőképp blokkolhatóak:

Disallow: /2010/

Disallow: /2011/

Disallow: /2012/

Disallow: /2013/

Fontos tudni: Nem használhatja a „Disallow: /20*/” utasítást, mivel ez esetben az összes „20”-szalkezdődő poszt vagy oldal blokkolva lesz.

A robots.txt általános információi

Robots.txt szintaxisának alapjai

Robots.txt és SEO

Robots.txt WordPress-hez

Kapcsolódó cikkek