Nézetek
Keresőrobotok viselkedését befolyásoló fájl
A webhely gyökérkönyvtárában elhelyezett robots.txt nevű, egyszerű szöveges fájl segítségével meghatározhatjuk, hogy a különböző User agenttel bejelentkező Keresőrobotok a webhely melyik könyvtárát vagy fájlját nem idekszelhetik be. Noha a robots.txt fájlnak a legtöbb webpók engedelmeskedik, ez a fájl önmagában nem jelent technikai korlátot a keresőrobotok és az offline böngészők számára. A robots.txt mellett még a Robots Meta tagok segítségével is befolyásolhatjuk a keresőrobotok működését.
robots.txt használata
- Ha például egy fájl elérését meg akarod tiltani a Keresőrobot mindegyikének, akkor ezt írod bele:
User-agent: * Disallow: nem-akarom-ezt-megmutatni.htm
- Ha egy könyvtárat akarsz letiltani, akkor így add meg:
User-agent: * Disallow: /titkok/ Disallow: /csunyasagok/
- Ha az egész oldaladtól akarod távoltartani -a robots exclusion protokoll-nak engedelmeskedő pókokat-, akkor pedig ezt írd be:
User-agent: * Disallow: /
A http://www.robotstxt.org/wc/exclusion.html oldalon lehet több információt szerezni többek között arról, hogy hogyan is kell pontosan kinézni egy ilyen fájlnak.
Kiterjesztések
A http://sitemaps.org szerint a Google Sitemaps formátumnak megfelelő oldaltérkép helyét az alábbi módon is meg lehet adni:
Sitemap: http://webni.innen.hu/sitemap.xml
Robots.txt ellenőrzése
A »robots.txt checker« kereső-kifejezésre rákeresve számos online szolgáltatásra találhatunk, melyek lehetővé teszik a megadott URL-en elérhető robots.txt fájlok elemzését; érdemes többet kipróbálni belőlük.
A Google Webmaster Tools is rendelkezik olyan funkcióval, mely segítségével leellenőrizhető, hogy mit lát és hogyan értelmezi a robots.txt direktíváit a Google által használt összes Keresőrobot. Az oldal ellenőrzése (Verify) után a "Diagnostic" lapon a "Tools" almenüben találhatjuk meg a "robots.txt analysis" menüpontot.
Példák a robots.txt felhasználására
Hasznos lehet, ha nem szeretnénk, hogy sokan lecincálják az egész webhely tartalmát offline böngészőkkel, mint pl a HTTrack?, kiváltképp, ha tárhelyünk a havi adatforgalma korlátos. Erre gondoltam én is beüzemelni egy robots.txt fájlt, azonban konkrétan a HTTrack? azt mondta a "Disallow: /" (tehát mindent tiltó) kitételre, hogy túlságosan szigorúak a feltételek és ezért nem veszi figyelembe. Mivel az összes fájl a gyökérkönyvtárban található, még egyes mappákat sem tudtam letiltani.
Másik kézenfekvő megoldás lehet, ha egy webhely több címen érhető el, mi viszont csak az egyik cím alapján szeretnénk beindekszeltetni, akkor letilthatjuk a többi változatot. Például a webni.innen.hu elméletileg innen.hu/webni címről van átirányítva, továbbá az innen.hu tartalma más URL alól is elérhető. Én nem szeretném azonban, ha véletlenül e címekbe botlik egy keresőrobot, akkor ezeket is végigindekszelje, és többször szerepeljen az oldalam valamelyik kereső adatbázisában.
Pusztán a robots.txt jelenléte elegendő ahhoz, hogy egyszerűen nyomon követhessük, hogy a látogatók mekkora hányadát képviselték a keresőrobotok. A webpókok ugyanis minden látogatásuk alkalmával kikérik ezt a fájlt, és így a robots.txt letöltéseinek száma alapján az olyan Látogatottsági statisztika segítségével is képet kaphatunk az általuk generált forgalomról, mely egyébként nem összesíti, hogy hány webpók látogatónk volt (mint pl. a Webalizer).
2005. augusztusA Google kereső rendszere okosabb mint a többi keresőé: automatikusan detektálta, hogy ugyanaz a tartalom más címen is tükrözve van, és csak azt a címet hagyta meg adatbázisában, amelyikre Külső hivatkozások is mutattak. A Yahoo! kereső rendszere nem volt ennyire okos, és --igaz az én hibámból-- duplán, más URL alatt is bekerült weblapokat csak a robots.txt fájl segítségével tudtam eltávolíttatni, és ez is több mint egy hónapba került.
Blog a robots.txt-ben --kaixo, Fri, 20 Jan 2006 06:05:45 -0600 reply
Amikor Brett Tabke, a [Webmaster World]? atyja bejelentette, hogy kitiltja oldaláról a Keresőrobotat és a robotokat úgy általában, akkor sokan nem értették meg a miértjét, ezért elég gyorsan terjedt e radikális lépés híre (lásd pl. http://seoblackhat.com/2006/01/03/webmaster-world-i-think-i-get-it/ ), emiatt a szakemberek közül sokan nézték meg, hogy mit is csinált tulajdonképpen Brett a robots.txt fájljával. Kézenfekvő ötlet volt ezekután blogot indítani ebben a szöveges fájlban (kikommentezett sorokban):
http://www.webmasterworld.com/robots.txt
Gratuláció! -- Mon, 30 Jan 2006 05:26:32 -0600 reply
Gratuláció! -- Mon, 30 Jan 2006 05:28:07 -0600 reply
Kedves Szerkesztők! Végre egy közérthetően leírt fejtegetés, ami sokunkat érdekelhet.
Köszönöm Botz István
Hálás köszönet! -- Tue, 14 Feb 2006 06:45:43 -0600 reply
Köszönet az önzetlen és segítőkész informálásért! :)
Ritka, hogy mapanság valaki önszorgalomból akar segíteni másokon mindenféle érdek nélkül.
Csak így tovább! :)
Üdvözlettel;
Laya - http://www.visionart.hu
Hálás köszönet! -- Wed, 15 Feb 2006 02:44:06 -0600 reply
István, Laya!
Köszönöm kedves szavaitokat! (Azért nem minden érdek nélkül foglalkozok az oldallal, persze leginkább azért csinálom, mert szeretem csinálni ;)
Üdv: JJózsef
Állati Jó ez az oldal! -- Sun, 17 Sep 2006 03:35:50 -0500 reply
Koszi! -- Sat, 16 Dec 2006 14:10:23 -0500 reply
Hmm, nagyon koszi, mar eleg idegesito volt, hogy a kis helyi webhelyem savszele (ADSL) nagyreszt azzal megy el, hogy 3 bot indexeli egyfolytaban :(
Webhely diagnosztika menuben blokkolt URLek? de mind cache-elt -- Sat, 30 Dec 2006 03:20:07 -0500 reply
Szisztok,
Nekem par napja megjelentek cache-elt URL-ek az emlitett menuben es a blokkolas oka mindig a Robots.txt file. Ez lehet, hogy valami Adsense hiba? Irtam mar az Adsense csapatnak, de meg nem jott valasz. Masnal nincs igy? Egy minta: http:/ / 209. 85. 129. 104/ search? q= cache:*************************
Koszi Psimagan
Re: Webhely diagnosztika -- Sat, 30 Dec 2006 04:02:06 -0500 reply
Általános probléma lehet. Ráadásul ezzel egyidőben a Sitemaps (vagy Webmaster Tools) is elkezdett szarul működni. És a webhely diagnosztika ez utóbbiból veszi az adatait.
Re: Webhely diagnosztika -- Thu, 04 Jan 2007 02:54:48 -0500 reply
Megoldás: http://www.jensense.com/archives/2007/01/google_adsense_12.html
Re: Webhely diagnosztika -- Thu, 04 Jan 2007 03:14:37 -0500 reply
Koszi! Ugy nez ki kijavitottak, es mar el is tuntek onnan.
Psimagan
E-mail cím gyűjtők letiltása -- Tue, 06 Feb 2007 11:51:57 -0500 reply
A robots.txt-vel le lehet tiltani az email cím gyűjtő robotokat az oldalról?
Ha igen, akkor jó lenne vmiféle feketelista és fehérlista (keresőrobotok) a témában.
Tudsz esetleg ilyet?
Re: E-mail cím gyűjtők letiltása --OldalGazda, Wed, 07 Feb 2007 09:15:18 -0500 reply
Erre nem jó a robots.txt, mert az egy "szabadonválasztott műfaj": önmagában nem jelent technikai korlátot, csak a jólnevelt keresőrobotokat tájékoztatja... Inkább valami JavaScript-be próbáld meg berakni, pl. így:
«script language=javascript»
<!--
var k1 = "info"
var k2 = "4;enoldalam.hu"
var k3 = "info"
var k4 = "enoldalam.hu"
document.write("<a href=" + "mail" + "to:" + k3 + "@" + k4 + ">" + k1+k2 + "</a>")
//-->
«/script >»
az info helyébe írd be a kukac előttit, az enoldalam.hu helyébe pedig a kukac utánit. Vélhetőleg nem fognak ezek a robotok nekiállni a JavaScriptet? megfejtegetni, mert ha igen, akkor hozzájuthatnak az e-mail címhez. Hátrány továbbá, hogy akinek ki van kapcsolva a javascript, az nem fog látni ebből semmit... (a dupla kacsacsőrt a script tagoknál cseréld ki simára, ez csak azért kellett, hogy ne értelmezze a rendszer itt...)
E-mail gyüjtés -- Thu, 15 Mar 2007 19:09:37 -0400 reply
Másik módszer lehet amit pl a phpBB újabb verziói használnak, hogy a levél írásra egy formot használnak, aminek a feldolgozó php-ja postáz a juzer címére, így a küldő nem is tudja meg a címzett valaki@halahol.hu-ját meg :-).
Hátránya hogy nem lehet csatolt fájlokat küldeni.
Egyes szerverek korlátozzák a kódból küldhető levelek számát (SPAM veszély!)
Előny - a titkosságon kívül -, hogy kódból már küldés előtt lehet cenzúzását :-(, spam szűrést :-) végezni.
OFF Jó hogy feléledt ez az oldal tavalyi kihagyás óta !
Tuby
robots -- Thu, 24 Jan 2008 11:19:20 -0500 reply
alapból mi a robots.txt file tartalma?
ez? ---> User-agent: *
Re: robots --OldalGazda, Thu, 24 Jan 2008 11:35:10 -0500 reply
Ha azt vesszük alapnak, hogy nem akarsz letiltani semmit, akkor az alap az, hogy nincsen robots.txt fájlod :)
A Disallow az csak a tartalmat tiltja -- Wed, 12 Nov 2008 04:34:50 -0500 reply
Mint nemrég megtudtam a disallow engedni az adott oldal indexelését, csak a tartalomét nem. Ha az indexelést akarjuk tiltani, ahhoz a noindex-et kell használni. Bővebben: www.google.com/support/webmasters/bin/answer.py?hl=hu&answer=35303
Re: A Disallow az csak a tartalmat tiltja -- Fri, 14 Nov 2008 13:37:45 -0500 reply
Ezt akkor én úgy értelmezném, hogy a Disallow esetén még az adott link megjelenhet a találati listában, korlátozott tartalmú kivonattal, míg a Noindex esetén még így sem. Szerintetek?
A webni.innen.hu lassan nyugdíjba vonul.
Kérlek, hozzászólásodat inkább a www.oldalgazda.hu/forum oldalon tedd meg,
kiváltképp, ha OldalGazdától szeretnél választ várni és nem egy korábbi hozzászólásra válaszolsz.