World Wide Web (WWW) sisältää suuren määrän hajallaan olevaa tietoa. Jotta halutun tiedon löytäminen olisi helpompaa, kannattaa avuksi ottaa WWW-hakupalvelut.
Hakupalveluita on kahdenlaisia: hierarkisia hakemistoja sekä hakuohjelmia.
Hierarkiset hakemistot koostuvat linkeistä, jotka on järjestetty puumaiseksi rakenteeksi aiheiden mukaan. Linkkitietokannat ovat pienempiä kuin hakurobotteja käyttävissä järjestelmissä, mutta toisaalta saadut vastaukset ovatkin sitten yleensä laadullisesti parempia. Koska linkit kerää ihminen eikä kone, voidaan varmistaa, että kyseiset sivut todella käsittelevät aihetta. Vastauksissa ei myöskään ole esim. sivun vanhaa versiota.
Hierarkisia hakemistoja ovat mm. Infoseek, Magellan ja Yahoo. Näistä ehkä tunnetuin ja käytetyin on juuri Yahoo.
Yahoo sisältää yli puoli miljoonaa WWW-sivua, jotka on jaettu yli 25 000 kategoriaan. Yahoossa pääluokkia on 14. Aihealueita ovat mm. tietokoneet ja Internet, terveys, koulutus, viihde, harrastukset sekä uutiset. Pääluokkien alapuolella on useita alaluokkia, joilla taas on omat alaluokkansa. Yahoo sisältää myös pienen hakurobotin, jolla voi suorittaa haun jonkin aihealueen alavalikosta.
Yahoota on hyvä käyttää silloin, kun ei tarkalleen tiedä mitä hakee.
Paluu alkuunHakuohjelmat eli -robotit puolestaan ovat ohjelmia, jotka kokoavat tietokantoja. Ne seuraavat mekaanisesti WWW-sivuilla olevia linkkejä ja lisäävät uudet sivut tietokantoihinsa, joihin sitten haut tehdään.
Koska indeksointi suoritetaan automaattisesti, se ei voi olla täysin luotettavaa eikä kattavaa. Lisäksi sivujen läpikäynti vie niin paljon aikaa, ettei robottien keräämä aineisto juuri ole ajan tasalla. Indeksointia vaikeuttavat mm. palvelinten toimintahäiriöt, virheet ja puutteet html-rakenteessa sekä samat, muuttuneet ja toimimattomat osoitteet. Osa WWW-sivuista on lisäksi suojattu salasanoilla tai niihin ei ole linkkejä ulkopuolelta.
Toiset ohjelmat huomioivat tietyn määrän sanoja aina sivun alusta, toiset taas ottavat huomioon koko sivun sanat. Näin ollen hakurobottien tietokannat ovat suuria, ja myös haun tuloksia tulee paljon. Laadullisesti vastaukset ovat huonompia kuin hierarkisia hakemistoja käyttämällä saataisiin, koska joukossa on usein vanhentuneita ja täysin irrelevantteja linkkejä.
Hakukoneita ovat mm. Lycos, Excite, Hotbot ja Altavista. Suomalaisia hakuohjelmia ovat esimerkiksi Ihmemaan haku, joka etsii ainoastaan Suomessa olevia sivuja sekä Kompassi, joka yhdistää tärkeimpien koti- ja ulkomaisten hakukoneiden haut. Haut suoritetaan tällöin toisistaan riippumatta ja yhtäaikaa.
Digitalin kehittämä ja ylläpitämä Altavista on yksi käytetyimmistä ja suurimmista hakukoneista. Se sisältää yli 125 miljoonaa WWW-sivua. Se indeksoi sisältämistään sivuista kaikki sanat. Haut suoritetaan annettujen hakusanojen perusteella. Haut voidaan tehdä joko käyttämällä yksinkertaista oletusarvoisena olevaa hakua (simple-haku), tai sitten tehostettua hakua (advanced-haku). Käytännössä hakukone tekee kaikki haut käyttäen jälkimmäistä.
Haun tuloksena Altavista palauttaa viitteet löydettyihin sivuihin sekä lyhennelmän sen sisällöstä, tavallisesti muutaman rivin sivun alusta lukien. Vastaukset järjestetään sen mukaan kuinka aikaisin ja kuinka usein sana sivulla esiintyy. Toisin sanoen parhaat tulokset ovat ensimmäisinä.
Jos tuloksia tulee erittäin paljon, on Altavistassa mahdollisuus tarkentaa hakua käyttämällä Refinea (aikaisemmin tunnettu nimellä LiveTopics). Refine laatii listan dokumenteissa esiintyneistä sanoista, joista voi sitten valita sanat, jotka haluaa haussa esiintyvän ja mitkä ei. Haku uudella kriteerillä suoritetaan vain jo saatujen tulosten joukossa. Hakua voi tarkentaa useamminkin kuin kerran, kunnes saatujen tulosten määrä on kohtuullinen.
Altavistassa voi etsiä tietoa monella eri kielellä. Siinä on myös käännöspalvelu, jolla voi kääntää yksittäisiä linkkejä ja jopa koko WWW-sivuja.
Altavista suomenkielinen palvelu on nykyään Evreka.
Merkki | Selitys |
---|---|
+ | Sanan täytyy esiintyä tuloksissa Esim. +aku +ankka |
- | Sana ei saa esiintyä tuloksissa Esim. +marja -mansikka |
* | Hakee sanat, jotka alkavat samalla tavalla Merkin edellä oltava vähintään 4 merkkiä Esim. laiva* |
" " | Haku tietyn lauseen tai fraasin perusteella Esim. "aku ankka" |
suuret ja pienet kirjaimet | Pienet: vastauksissa esiintyy kaikki yhdistelmät Suuret: vastauksissa vain täsmälleen kirjoitusasultaan vastaavat |
Lisäksi yksinkertaisessa haussa voidaan käyttää avainsanaa, joka rajaa haun tiettyihin osiin kullakin indeksissä olevalla sivulla. Voidaan hakea esimerkiksi linkkejä, (jolloin laitetaan anchor:ja linkin nimi), otsikon perusteella (title:) tai rajoittaa haku URL-osoitteeseen (url:).
Paluu alkuunTehostetussa haussa eivät + ja - -merkit toimi, vaan on käytettävä boolen operaattoreita.
Symboli | Selitys |
---|---|
AND | Molempien sanojen tulee esiintyä tuloksissa Esim. aku AND ankka |
OR | Jommankumman sanoista esiinnyttävä tuloksissa Esim. honka OR petäjä |
AND NOT | Ensimmäisen sanoista esiinnyttävä, toisen ei Esim. kotieläin AND NOT lehmä |
NEAR | Sanojen oltava tekstissä korkeintaan 10 sanan päässä
toisistaan Esim. levi NEAR tunturi |
Advanced-haussa voidaan myös määrätä, minkä sanan mukaan sivut järjestetään sekä käyttää päiväysrajoitusta.
Yleisten hakukoneiden lisäksi tarjolla on johonkin tiettyyn alaan erikoistuneita hakuohjelmia. Henkilöhakuun eli sähköpostiosoitteen löytämiseksi on olemassa mm. WhoWhere sekä suomalainen Eemeli.
Uutisryhmiin lähetettyjä artikkeleita ja niiden lähettäjiä voidaan etsiä esimerkiksi DejaNewsin avulla. Molempia voi etsiä myös Altavistalla ja usealla muullakin yleisellä hakukoneella.