Altavista vs Ihmemaa
suomalaisten dokumenttien haussa
Hakukoneet
Altavista on ehdottomasti yksi maailman suurimmista hakukoneista 200GB:n kokoisella indeksitiedostollaan.
Altavistan käyttöliittymä on alan huipputaitajien suunnittelema ja se pyörii 16:lla Alpha serverillä,
joissa kussakin on 8GB käyttömuistia. Ihmemaa taas pyörii paljon vaatimattomassa tietokonelaitteistossa
ja sisältää 738MB:n kokoisen indeksin, jossa on vain suomalaisia dokumentteja.
Päämäärä
Tarkoituksenani on tutkia miten Altavista kestää vertailun kansallisen hakukoneen Ihmemaan kanssa kun
kyse on suomalaisista dokumenteista. Olen pyrkinyt valitsemaan kolme hakua siten, että niiden löytyminen
ulkomaisilta palvelimilta on epätodennäköistä. Jos kuitenkin haussa löytyy epärelevantteja dokumentteja
jätän ne huomiotta loppupäätelmää tehdessäni. Koska Ihmemaan haku on melkoisen askeettinen jätän
käyttämättä Altavistan mahdollistamia edistyneitä hakutoimintoja ja keskityn perushakuihin. Käytetty
hakulauseke on lainausmerkkien selässä hakukohteen perässä. Joissain tapauksessa hakukoneiden syntaksi
on erilainen, mutta haku sama.
1. Viitteet Riku Henrikssoniin. "Riku Henriksson"
|
Kaikki osumat
|
Relevantit
|
Irrelevantit
|
Relevanttien %
Altavista | 67 | 63 | 4 | 95.5%
|
Ihmemaa | 140 | 38 | 102 | 37.2%
| |
2. Tietoa Pihtiputaan yrittäjistä. "yrittäjä* and (pihtiputaa or pihtipudas)"
|
Kaikki osumat
|
Relevantit
|
Irrelevantit
|
Relevanttien %
Altavista | 25 | 15 | 10 | 60.0%
|
Ihmemaa | 22 | 12 | 10 | 83.3%
| |
2. Särkänniemen delfiinit. "Särkänniemi and delfiin*"
|
Kaikki osumat
|
Relevantit
|
Irrelevantit
|
Relevanttien %
Altavista | 48 | 44 | 4 | 91.6%
|
Ihmemaa | 33 | 25 | 8 | 75.7%
| |
Päätelmät
Hakukoneiden nopeudessa ei ole olennaisia eroja, ainakaan käyttämälläni 38.4kbs:n linjalla.
Hakeminen sujui jonkin verran nopeammin Ihmemaan haulla, mutta tämä johtuu lähinnä sen sijainnista
Suomessa. Käyttämäni Altavista oli Palo Alton yksikkö, joten Atlanttia ylitettäessä liikenne
hidastui huomattavasti.
Altavistan haut olivat kokonaisuutena selvästi tarkempia myös kotimaisissa dokumenteissa ja antoivat
paremman tuloksen, jopa pelkillä boolean-muuttujilla käyttämättä sen erikoisominaisuuksia. Relevanttien
dokumenttien määrä suhteessa irrelevantteihin oli kokonaisuutena huomattavasti parempi kuin Ihmemaalla.
Lisäksi käyttöliittymä on parempi ja esteettisesti miellyttävämpi. Ainoa Ihmemaan etu verrattuna
Altavistaan on, että sen haussa voi määritellä montako dokumenttia näytetään yhdellä sivulla, tosin
maksimi on vain 100 kappaletta. Ihmemaan ongelma erityisesti nimihauissa on valtava urheilutulosten
määrä koska läheisyysoperaattoria ei ole vaan esim. Riku Henriksson tuottaa tulokseksi kaikki
dokumentit, joista löytyy Riku tai Henriksson. Altavistan haussakaan ei käytetty läheisyysoperaattoria
mutta tuloksesta rajautuivat silti pois urheilutulokset.
Tämän dokumentin on tehnyt Tampereen Yliopiston Informaatiotutkimuksenlaitoksen kurssi a13c:n
evaluointityönä Riku Henriksson syksyllä 1997.