Keresőrobot

november 18, 2004

Kereső-adatbázisokhoz adatot gyűjtő számítógépek

Keresőrobotoknak hívjuk (lásd még: kereső pókok, webbejáró, hálóbejáró, crawler, bot) azokat a programokat, melyek a Szabadszavas keresők számára gyűjtik össze a weblapokról az információkat (beindexelik az oldalakat), és bizonyos szabályok szerint automatikusan követik az egyes weboldalakon található linkeket. Ezek a robotok azonosítják magukat, és a rendes Látogatottsági statisztika megmutatja, hogy mikor jártak utoljára oldalunkon, és hány oldalt látogattak meg.

Hogy jutnak el oldalunkra a robotok?

A robotok akár a Keresőoldalakra regisztrálás révén, de leginkább a más webhelyekrõl az oldalunkra mutató Külső hivatkozásokat követve érkeznek oldalunkra. A sok Teljes értékű link garancia egyrészt arra, hogy sokfajta kereső robotja látogassa az oldalt, másrészt pedig arra, hogy a gyakori látogatásokkal rendszeresen újraindexelje az oldal tartalmát.

Mit lát az oldalból a kereső(robot)?

A különböző Böngészők eltérő módon értelmezik az oldalon található HTML kódot, az esetleges hibákat és szabványtól eltérő megoldásokat is igyekeznek megjeleníteni, ezáltal a rossz kód sokszor fel sem tűnik az oldal alkotóinak, viszont a keresőrobotok nem feltétlenül rendelkeznek a böngészők hibatűrő képességével. Ez lehet akár szándékos is: egyrészt az értékes weboldalak valószínűleg jobban vannak megírva, mint a kevésbé értékesek; illetve a HTML értelmezésénél sokat számíthat a szükséges processzoridő, ezért feltehetően takarékosan bánnak vele (azaz nem biztos, hogy olyan nagy tudású, hibatűrő értelmezőket használnak, mint a böngészők).

Szintén az erőforrásokkal (pl. processzoridő) való takarékosság okán a keresőtechnológiák egyes, modern böngészők által értelmezhető technológiákat nem vesznek figyelembe (mint pl. JavaScript), ezáltal az ilyen, Problémás technológiák segítségével megírt oldalrészeket egyáltalán nem „látja” az adott kereső robotja.

A fenti okok miatt előfordulhat, hogy nem tudják az egész oldalt „elolvasni”, vagy nem tudnak (nem akarnak) továbbmenni egy bizonyos oldalról. Emiatt kell elkerülni a Problémás technológiákat és ragaszkodni a Webes szabványokhoz. Szöveges böngészők használatával, a weboldal forráskódjának átnézésével, illetve a Webes szabványok úgynevezett validátorainak segítségével meggyőződhetünk róla, hogy oldalunk nagy valószínűséggel problémamentesen indekszelhető-e. Mivel a keresőtechnológiák zöme titkos, ezért nem tudhatjuk, hogy az egyes robotok pontosan milyen módon értelmezve, mit látnak az (X)HTML, vagy az (X)HTML-hez hasonló, a Böngészőkben többbé-kevésbé jól megjelenő oldalakból, ezért a legtöbb, amit tehetünk, hogy ragaszkodunk a webes ajánlásokhoz. Ekkor van ugyanis a legnagyobb esélyünk arra, hogy a keresőpókok elé nem gördül semmilyen technikai akadály, és ezáltal webhelyünk egésze kereshető legyen.

A keresőpókok viselkedésének befolyásolása

A robotoknak engedelmeskednie kell az oldalunkon elhelyezett robots.txt fájlban található „parancsoknak”, vagy az egyes weblapokon található Meta tagoknak. E technika segítségével megtilthatjuk a robotoknak, hogy oldalunk bizonyos részét, részeit beindexeljék. Szinte minden, a keresőrobotokról szóló információ megtalálható itt: http://www.robotstxt.org/wc/robots.html

A Google Sitemaps szolgáltatás segítségével pedig közvetlenül megmondhatjuk, hogy mely oldalakat indexelje be oldalunkról a Googlebot, a Google kereső robotja.

Milyen utakon járnak a keresőrobotok?

A keresőrobotok működésének tanulmányozására a http://drunkmenworkhere.org/218 oldalon található egy érdekes projekt leírása: Az oldal végtelen számú, automatikusan generált lapot kínál fel és regisztrálja a robotok ténykedését. Grafikusan is megjeleníti (egy fát rajzolva), hogy a keresőrobotok milyen mélységben hatoltak be az oldalra, emellett kiírja látogatásaik időpontját is. A http://drunkmenworkhere.org/219 oldalon pedig a projekt eredményeinek leírása található meg.

A robotok olykor lekérnek olyan fals címeket is a szerverről, melyek egészen bizonyosan nem léteznek az adott a szerveren, mint például: /SlurpConfirm404/IS_Support_Board.htm . Sokszor ugyanis csak ezzel a módszerrel lehet beazonosítani, hogy milyen weblapot küld a szerver, ha egy adott weblap már nem érhető el a kért URL-en, mert nem a szabványos HTTP 404 Not Found válasszal érkeznek az oldalak, hanem pl. HTTP 200 OK válasszal. A nem talált oldalakra adott automatikus válaszlap birtokában pedig ki lehet sakkozni, hogy egy adott oldalon milyen elérési útvonalak avultak el a keresőpók utolsó látogatása óta.

Milyen gyakran látogatnak egyes oldalakat?

A keresőrobotok leggyakrabban a nyitóoldalt látogatják. Minél távolabb van egy weblap a nyitóoldaltól (minél több kattintásra található), annál ritkábban jutnak el a robotok arra a lapra. Látogatásaik gyakoriságát többek között az oldalak frissülésének, változásának gyakorisága és az oldalra mutató Külső hivatkozások száma és fontossága is befolyásolja.

A Keresőoldalakra regisztrálás és a keresőrobotok első látogatása között akár négy-hat hét is eltelhet, attól függően, hogy milyen keresőről van szó. Először nagy valószínűséggel csak a nyitóoldalt fogják beindekszelni, későbbi ciklusban fedezik fel majd a webhely „mélyebben fekvő” részeit is.

Mely pókok látogatják ezt a webhelyet?

Az alábbiakban azokat a robotokat sorolom fel, melyek rendszeres látogatói oldalamnak, és érdemi mennyiségű weblapot indexelnek be róla.

Google Inc. robotjai

A Google Inc. keresőrobotjairól (Googlebot, Google-Mediapartners, stb.) külön szócikkben olvashatsz.

Gigabot

A Gigablast számára gyűjt információt::

Gigabot/2.0/gigablast.com/spider.html

ia_archiver

http://pages.alexa.com/help/webmasters/

Az [Alexa] különböző szolgáltatásai számára gyűjt adatot, mint például a Wayback machine. Az Alexa eszköztár felhasználói által gyakran látogatott webhelyek nagyobb valószínűséggel kerülhetnek fel az ia_archiver úticéljai közé.

Jyxobot

magyarul: A Jyxo keresőtechnológia által működtetett keresők számára gyűjt oldalakat. Valószínűleg cseh, szlovák és magyar nyelvű honlapokat indexel, az adott nyelvű keresőoldalak számára. A Jyxo technológia honlapja a http://jyxo.cz , bár itt csak cseh nyelven találunk információt.

in English: Jyxo is a Czech search engine technology. Apart from http://jyxo.cz Jyxobot indexes pages for different fulltext search engines such as http://zoohoo.hu , http://zoohoo.sk , http://zoohoo.cz , http://tango.hu . You can search on these pages among Hungarian, Slovak, Czech (and combined Czech/Slovak) webpages respectively, so this bot is most likely to index web pages written in these languages. For those who got here via Google: please read the English summary about this site.

Kurzor robot

http://talalat.kurzor.hu/robots.html

A kurzor.hu saját kereső-adatbázisa számára gyűjt adatokat, User Agentje a következő:

  kurzor.hu/1.0 (kurzor.hu; http://talalat.kurzor.hu/robots.html; kereso@kurzor.hu)  

Régebben az alábbi, érdekes módon azonosította magát:

  kurzor.hu/1.0_(kurzor.hu;_http://www.easymail.hu/;_cursor@easymail.hu)

LapozzBot

http://robot.lapozz.com

A lapozz.hu kereső számára gyűjt adatokat:

  LapozzBot/1.4 (+http://robot.lapozz.com)

MSNBot

A Microsoft Live keresője számára gyűjt információt, melyet régebben MSN Keresőnek hívtak, azonban a robotok nevét nem változtatták meg; a webmesterek életét megkönnyítendő.

  • MSNBot: Fő keresőrobot (www.live.com)
  • MSNBot-Media: Képek és minden egyéb média (images.live.com)
  • MSNBot-NewsBlogs: Hírek és blogok (search.live.com/news)
  • MSNBot-Products: Termékek és vásárlás (products.live.com)
  • MSNBot-Academic: Tudományos kereső (academic.live.com)

További részletek: http://blogs.msdn.com/livesearch/archive/2006/11/29/search-robots-in-disguise.aspx

Még az MSN kereső idejében a robot User agentje a következő volt:

  msnbot/1.0 (+http://search.msn.com/msnbot.htm) 

Yahoo! Slurp (egykoron Inktomi Slurp)

http://help.yahoo.com/help/us/ysearch/slurp/

A Yahoo! kereső számára gyűjt adatokat, User agentje:

  Mozilla/5.0 (compatible; [Yahoo! kereső]! Slurp; http://help.yahoo.com/) 

Egyéb robotok

Különböző tudományos projektek (például a SzóSzablya ) sokszor saját robot segítségével számottevő mennyiségű adatot gyűjtenek, így előfordulhat, hogy oldalunkra is ellátogatnak, mint például az alábbi:

  Shim-Crawler(Mozilla-compatible; http://www.logos.ic.i.u-tokyo.ac.jp/crawler/; crawl@logos.ic.i.u-tokyo.ac.jp)

Visszaélések a keresőrobotokkal

Egyes webmestereknek érdekében lehet, hogy egy adott keresőrobotnak más tartalmat mutasson, mint a látogatóknak. Például a Googlebot számára olyan oldalakat nyújtani, melyek akár az oldal témájához nem illő kulcsszavakat és linkeket tartalmaznak, hasonlóan a Mediapartners-Google robot számára jól fizető hirdetésekhez passzoló „drága kulcsszavakat” tartalmazó szöveget jelentetve meg. Ezt a típusú technikát (Amit Cloaking-nak is neveznek: lásd WikiPedia:Cloaking ), azonban egyszerűen le lehet leplezni: amennyiben User Agent alapú megkülönböztetés szerint igyekeznek a keresőrobotokat azonosítani, akkor sima böngészőknek megfelelő User Agent-ek használatával, vagy akár az ismert, keresőrobotokhoz tartozó IP-cím tartományoktól különböző címek használatával.

A „Keresőrobot” című bejegyzést 2004. 11. 18. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2009. 04. 11., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások

Mennyi idő alatt törlődik a googleból egy oldal?

2007. 04. 05. 15:25 · TamasiDora →

A „gooogle keresés” -be beírt kereső szóra az első helyen már nem aktuális tartalmú weboldalt hoz ki a gooogle. A weboldal tartalmát feb. közepén teljesen megváltoztattam (tehát a szöveggel együtt törlődtek a kereső szavak/kulcsszavak). Mikor bírál(hat)ja felül a kereső robot az oldal tartalmát, mely lassan két hónapja nem tartalmazza azokat a kulcsszavakat (a HTML sem!!), melyekre rákeresünk. Dóra

Mennyi idő alatt törlődik a googleból egy oldal?

2007. 04. 06. 07:41 · OldalGazda →

Az az oldal nagyságától függ, és attól, hogy hány fontos weboldalról mutatnak linkek az adott webhelyre. Ha pl. sok weblap van a webhelyen, de nagyon kevés értékes külső link mutat a webhelyre, akkor beletelhet pár hónapba is akár, mire maradéktalanul aktualizálja az oldalakat adatbázisában. Ez egy ilyen bicikli.

MSN Robot és Yahoo robot

2007. 09. 02. 07:09 · fapapucs →

Hogy tudnám rábírni az msn és a yahoo robotját hogy többször indexelje az oldalam msn kb havonta 1x jön és akkor is csak az index oldalam nézi meg!A yahoo kicsit töbször jön napi 3-4 x de akkor sem nyúl méllyen az oldalba!

MSN Robot és Yahoo robot

2007. 09. 05. 16:47 · Névtelen hozzászóló →

linkek, linkek, linkek. Szóval a Linknépszerűség növelése segíthet abban, hogy gyakrabban és mélyebben indexeljék a keresőrobotok az oldalad.

MSN Robot és Yahoo robot

2007. 09. 19. 10:28 · fapapucs →

Jelenleg 563 link mutat az oldalra ebből 363 mutat az index oldalra ezekszerint még link még link ?

MSN Robot és Yahoo robot

2007. 09. 19. 10:33 · OldalGazda →

Attól függ: ha ezek nagy része site-wide link, tehát mondjuk ugyanannak a domainnak 400 lapjáról mutat link az oldaladra, továbbá ha mondjuk Open Directory Projectbe bekerülvén, annak tartalmát tükröző oldalakról mutat sok link, stb. Szóval nemcsak a szám, hanem a minőség, tehát a súly is számít a linkeknél.

Munkamenet sütik

2008. 05. 04. 15:05 · Névtelen hozzászóló →

Kedves oldalgazda!Az lenne a kérdésem, hogy amennyiben úgy használok munkamenet sütiket, hogy azok nem befolyásolják a tartalmat, gondot okozhat e a keresőoptimalizálásban.?

Munkamenet sütik

2008. 05. 04. 17:39 · Névtelen hozzászóló →

Nem, ha valaki tok ugyanazt latja kuki nelkul, mint kukival, akkor nincs vele problema, tovabba ha a kuki csak ott befolyasolja a megjelenitett tartalmat, ahova a robotok ugysem tudnak eljutni, mivel csak bejelentkezes utan erheto el az adott tartalom, akkor sincs vele problema. Klasszikusan pl. akkor lehet gaz, ha tobbnyelvu oldalad a munkamanet kuki alapjan jelenit meg egy adott tartalmat kulonbozo nyelveken.

Munkamenet sütik

2008. 05. 05. 04:42 · Névtelen hozzászóló →

Nagyon köszönöm a segítséget, de újra átgondolva hiányosan tettem fel a kérdést.Kiegészítve: Amikor a felhasználó belép az oldalra azonnal megkezdődne a munkamenet oly módon, hogy (mivel nem mindenki fogadja a sütiket), az oldalon minden (az adott tartományban lévő) link munkameneti azonosítóval lenne ellátva (?PHPSESSID=xyz). A munkamenetre csupán csak amiatt van szükség, hogy amennyiben hozzászólna az oldal tartalmához, képet töltene fel, fórumozna, stb, és azonosított felhasználóról van szó, akkor automatikusan hozzá lenne rendelve az adott hozzászóláshoz, képhez, stb… a „szerző” neve, azonban az oldal tartalma „azonosítatlanul” is ugyanaz lenne. Tehát a kérdés megint ugyanaz: befojásolja e a munkamenet az oldal felgöngyölítését, valamint annak rangsorolását?

Re:Munkamenet sütik

2008. 05. 05. 17:17 · Névtelen hozzászóló →

En a helyedben azokra a felhasznalokra, akik nem engedelyezik a cookie-t, nagy ivben tojnek. Nem bonyolitanam tul az eletemet par tized szazaleknyi user kedveert… Ha valamiert megis meg akarod tartani a phpsessid-ket, akkor keress ra a

googlebot phpsessid

kifejezesre a google-ben, es olvasd el, mit irnak rola masok, en nekem hal´istennek nem szoktak ilyen problemaim lenni 🙂

Re:Munkamenet sütik

2008. 05. 06. 01:56 · Névtelen hozzászóló →

:O TÉnyleg csak néhány tized százalék az, aki nem fogadja a sütiket? Ha ez így van, tényleg nem érdemes ilyen módon bonyolítani a dolgokat. Köszi a segítséget.

regisztrált oldal

2009. 04. 07. 10:32 · Névtelen hozzászóló →

Üdvözletem!A lap.hu oldalaira linkelgetem fel a weboldalam, és felmerült bennem a kérdés, hogy mi van, ha az a link, ahová mutat a link, regisztrációhoz van kötve. Csak mert az oldal karbantartók, tartalmat néznek…ugye.