OldalGazda : Jároli József
keresőoptimalizálás (SEO) szakértő
Online marketing szolgáltatásaim:
Látogatottságnövelés
Keresőoptimalizálás
Keresőmarketing
 
»Bővebben»
Kapcsolatfelvétel:

 
 
Nézetek

Keresőrobotok viselkedését befolyásoló fájl

A webhely gyökérkönyvtárában elhelyezett robots.txt nevű, egyszerű szöveges fájl segítségével meghatározhatjuk, hogy a különböző User agenttel bejelentkező Keresőrobotok a webhely melyik könyvtárát vagy fájlját nem idekszelhetik be. Noha a robots.txt fájlnak a legtöbb webpók engedelmeskedik, ez a fájl önmagában nem jelent technikai korlátot a keresőrobotok és az offline böngészők számára. A robots.txt mellett még a Robots Meta tagok segítségével is befolyásolhatjuk a keresőrobotok működését.

robots.txt használata

  • Ha például egy fájl elérését meg akarod tiltani a Keresőrobot mindegyikének, akkor ezt írod bele:
      User-agent: *
      Disallow: nem-akarom-ezt-megmutatni.htm
    
  • Ha egy könyvtárat akarsz letiltani, akkor így add meg:
      User-agent: *
      Disallow: /titkok/
      Disallow: /csunyasagok/
    
  • Ha az egész oldaladtól akarod távoltartani -a robots exclusion protokoll-nak engedelmeskedő pókokat-, akkor pedig ezt írd be:
      User-agent: *
      Disallow: /
    

A http://www.robotstxt.org/wc/exclusion.html oldalon lehet több információt szerezni többek között arról, hogy hogyan is kell pontosan kinézni egy ilyen fájlnak.

Kiterjesztések

A http://sitemaps.org szerint a Google Sitemaps formátumnak megfelelő oldaltérkép helyét az alábbi módon is meg lehet adni:

  Sitemap: http://webni.innen.hu/sitemap.xml

Robots.txt ellenőrzése

A »robots.txt checker« kereső-kifejezésre rákeresve számos online szolgáltatásra találhatunk, melyek lehetővé teszik a megadott URL-en elérhető robots.txt fájlok elemzését; érdemes többet kipróbálni belőlük.

A Google Webmaster Tools is rendelkezik olyan funkcióval, mely segítségével leellenőrizhető, hogy mit lát és hogyan értelmezi a robots.txt direktíváit a Google által használt összes Keresőrobot. Az oldal ellenőrzése (Verify) után a "Diagnostic" lapon a "Tools" almenüben találhatjuk meg a "robots.txt analysis" menüpontot.

Példák a robots.txt felhasználására

Hasznos lehet, ha nem szeretnénk, hogy sokan lecincálják az egész webhely tartalmát offline böngészőkkel, mint pl a HTTrack?, kiváltképp, ha tárhelyünk a havi adatforgalma korlátos. Erre gondoltam én is beüzemelni egy robots.txt fájlt, azonban konkrétan a HTTrack? azt mondta a "Disallow: /" (tehát mindent tiltó) kitételre, hogy túlságosan szigorúak a feltételek és ezért nem veszi figyelembe. Mivel az összes fájl a gyökérkönyvtárban található, még egyes mappákat sem tudtam letiltani.

Másik kézenfekvő megoldás lehet, ha egy webhely több címen érhető el, mi viszont csak az egyik cím alapján szeretnénk beindekszeltetni, akkor letilthatjuk a többi változatot. Például a webni.innen.hu elméletileg innen.hu/webni címről van átirányítva, továbbá az innen.hu tartalma más URL alól is elérhető. Én nem szeretném azonban, ha véletlenül e címekbe botlik egy keresőrobot, akkor ezeket is végigindekszelje, és többször szerepeljen az oldalam valamelyik kereső adatbázisában.

Pusztán a robots.txt jelenléte elegendő ahhoz, hogy egyszerűen nyomon követhessük, hogy a látogatók mekkora hányadát képviselték a keresőrobotok. A webpókok ugyanis minden látogatásuk alkalmával kikérik ezt a fájlt, és így a robots.txt letöltéseinek száma alapján az olyan Látogatottsági statisztika segítségével is képet kaphatunk az általuk generált forgalomról, mely egyébként nem összesíti, hogy hány webpók látogatónk volt (mint pl. a Webalizer).

2005. augusztusA Google kereső rendszere okosabb mint a többi keresőé: automatikusan detektálta, hogy ugyanaz a tartalom más címen is tükrözve van, és csak azt a címet hagyta meg adatbázisában, amelyikre Külső hivatkozások is mutattak. A Yahoo! kereső rendszere nem volt ennyire okos, és --igaz az én hibámból-- duplán, más URL alatt is bekerült weblapokat csak a robots.txt fájl segítségével tudtam eltávolíttatni, és ez is több mint egy hónapba került.


comments:

Blog a robots.txt-ben --kaixo, Fri, 20 Jan 2006 06:05:45 -0600 reply
Amikor Brett Tabke, a [Webmaster World]? atyja bejelentette, hogy kitiltja oldaláról a Keresőrobotat és a robotokat úgy általában, akkor sokan nem értették meg a miértjét, ezért elég gyorsan terjedt e radikális lépés híre (lásd pl. http://seoblackhat.com/2006/01/03/webmaster-world-i-think-i-get-it/ ), emiatt a szakemberek közül sokan nézték meg, hogy mit is csinált tulajdonképpen Brett a robots.txt fájljával. Kézenfekvő ötlet volt ezekután blogot indítani ebben a szöveges fájlban (kikommentezett sorokban): http://www.webmasterworld.com/robots.txt

Gratuláció! -- Mon, 30 Jan 2006 05:26:32 -0600 reply

Gratuláció! -- Mon, 30 Jan 2006 05:28:07 -0600 reply
Kedves Szerkesztők! Végre egy közérthetően leírt fejtegetés, ami sokunkat érdekelhet. Köszönöm Botz István

Hálás köszönet! -- Tue, 14 Feb 2006 06:45:43 -0600 reply
Köszönet az önzetlen és segítőkész informálásért! :) Ritka, hogy mapanság valaki önszorgalomból akar segíteni másokon mindenféle érdek nélkül. Csak így tovább! :) Üdvözlettel; Laya - http://www.visionart.hu

Hálás köszönet! -- Wed, 15 Feb 2006 02:44:06 -0600 reply
István, Laya!

Köszönöm kedves szavaitokat! (Azért nem minden érdek nélkül foglalkozok az oldallal, persze leginkább azért csinálom, mert szeretem csinálni ;)

Üdv: JJózsef

Állati Jó ez az oldal! -- Sun, 17 Sep 2006 03:35:50 -0500 reply

Koszi! -- Sat, 16 Dec 2006 14:10:23 -0500 reply
Hmm, nagyon koszi, mar eleg idegesito volt, hogy a kis helyi webhelyem savszele (ADSL) nagyreszt azzal megy el, hogy 3 bot indexeli egyfolytaban :(

Webhely diagnosztika menuben blokkolt URLek? de mind cache-elt -- Sat, 30 Dec 2006 03:20:07 -0500 reply
Szisztok,

Nekem par napja megjelentek cache-elt URL-ek az emlitett menuben es a blokkolas oka mindig a Robots.txt file. Ez lehet, hogy valami Adsense hiba? Irtam mar az Adsense csapatnak, de meg nem jott valasz. Masnal nincs igy? Egy minta: http:/ / 209. 85. 129. 104/ search? q= cache:*************************

Koszi Psimagan

Re: Webhely diagnosztika -- Sat, 30 Dec 2006 04:02:06 -0500 reply
Általános probléma lehet. Ráadásul ezzel egyidőben a Sitemaps (vagy Webmaster Tools) is elkezdett szarul működni. És a webhely diagnosztika ez utóbbiból veszi az adatait.

Re: Webhely diagnosztika -- Thu, 04 Jan 2007 02:54:48 -0500 reply
Megoldás: http://www.jensense.com/archives/2007/01/google_adsense_12.html

Re: Webhely diagnosztika -- Thu, 04 Jan 2007 03:14:37 -0500 reply
Koszi! Ugy nez ki kijavitottak, es mar el is tuntek onnan.

Psimagan

E-mail cím gyűjtők letiltása -- Tue, 06 Feb 2007 11:51:57 -0500 reply
A robots.txt-vel le lehet tiltani az email cím gyűjtő robotokat az oldalról? Ha igen, akkor jó lenne vmiféle feketelista és fehérlista (keresőrobotok) a témában. Tudsz esetleg ilyet?

Re: E-mail cím gyűjtők letiltása --OldalGazda, Wed, 07 Feb 2007 09:15:18 -0500 reply
Erre nem jó a robots.txt, mert az egy "szabadonválasztott műfaj": önmagában nem jelent technikai korlátot, csak a jólnevelt keresőrobotokat tájékoztatja... Inkább valami JavaScript-be próbáld meg berakni, pl. így:

 «script language=javascript»
  <!--
  var k1 = "info&#6"
  var k2 = "4;enoldalam.hu"
  var k3 = "info"
  var k4 = "enoldalam.hu"
  document.write("<a href=" + "mail" + "to:" + k3 + "@" + k4 + ">" + k1+k2 + "</a>")
  //-->
 «/script &gt»

az info helyébe írd be a kukac előttit, az enoldalam.hu helyébe pedig a kukac utánit. Vélhetőleg nem fognak ezek a robotok nekiállni a JavaScriptet? megfejtegetni, mert ha igen, akkor hozzájuthatnak az e-mail címhez. Hátrány továbbá, hogy akinek ki van kapcsolva a javascript, az nem fog látni ebből semmit... (a dupla kacsacsőrt a script tagoknál cseréld ki simára, ez csak azért kellett, hogy ne értelmezze a rendszer itt...)

E-mail gyüjtés -- Thu, 15 Mar 2007 19:09:37 -0400 reply
Másik módszer lehet amit pl a phpBB újabb verziói használnak, hogy a levél írásra egy formot használnak, aminek a feldolgozó php-ja postáz a juzer címére, így a küldő nem is tudja meg a címzett valaki@halahol.hu-ját meg :-). Hátránya hogy nem lehet csatolt fájlokat küldeni. Egyes szerverek korlátozzák a kódból küldhető levelek számát (SPAM veszély!) Előny - a titkosságon kívül -, hogy kódból már küldés előtt lehet cenzúzását :-(, spam szűrést :-) végezni.

OFF Jó hogy feléledt ez az oldal tavalyi kihagyás óta !

Tuby

robots -- Thu, 24 Jan 2008 11:19:20 -0500 reply
alapból mi a robots.txt file tartalma? ez? ---> User-agent: *

Re: robots --OldalGazda, Thu, 24 Jan 2008 11:35:10 -0500 reply
Ha azt vesszük alapnak, hogy nem akarsz letiltani semmit, akkor az alap az, hogy nincsen robots.txt fájlod :)

A Disallow az csak a tartalmat tiltja -- Wed, 12 Nov 2008 04:34:50 -0500 reply
Mint nemrég megtudtam a disallow engedni az adott oldal indexelését, csak a tartalomét nem. Ha az indexelést akarjuk tiltani, ahhoz a noindex-et kell használni. Bővebben: www.google.com/support/webmasters/bin/answer.py?hl=hu&answer=35303

Re: A Disallow az csak a tartalmat tiltja -- Fri, 14 Nov 2008 13:37:45 -0500 reply
Ezt akkor én úgy értelmezném, hogy a Disallow esetén még az adott link megjelenhet a találati listában, korlátozott tartalmú kivonattal, míg a Noindex esetén még így sem. Szerintetek?


Google
 

A webni.innen.hu lassan nyugdíjba vonul.
Kérlek, hozzászólásodat inkább a www.oldalgazda.hu/forum oldalon tedd meg,
kiváltképp, ha OldalGazdától szeretnél választ várni és nem egy korábbi hozzászólásra válaszolsz.

Hozzászólás címe:
Hozzászólás szabályai
Hozzászólás szövege: (linket csak regisztrált felhasználók illeszthetnek be!)
Hozzászólásoddal örömet szerzel! ( 104 előfizető ) A hozzászólásokhoz JavaScript szükséges!