Miten Internetistä haetaan?

Tuija Sonkkila

Internetin kaikille avointa tietoavaruutta kartoitetaan periaatteessa kahdella tavalla, automaattisesti ja organisoidulla yhteistyöllä.

Automaattiset hakujärjestelmät ovat isoja indeksitietokantoja, joilla on orjatyövoimaa: itsenäisesti liikkuvat robottiohjelmat siirtyilevät pitkin verkkoa koneesta toiseen keräten tunnistetietoja koneille talletetuista WWW-dokumenteista. Osa niistä hylätään, loput indeksoidaan ja päivitetään hakujärjestelmän tietokantaan. Tällaisista hakujärjestelmistä tunnetuimpia ovat Lycos, InfoSeek, WebCrawler, WWWW ja Jumpstation. Suomen oloissa uusi on Trampoliini.

Hakujärjestelmiä käytetään syöttämällä niiden kyselypalvelimen WWW-lomakkeelle hakulauseke. Palvelin vertaa hakulauseketta indeksitietokantansa sisältöön ja palauttaa joukon osoitteita, joiden nimistä ja lisätiedoista voi päätellä, onko mikään niistä sitä mitä etsittiin. Osoitteiden avulla voidaan siirtyä heti haluttuihin dokumentteihin, sillä hakujärjestelmä esittää osoitteen hyperlinkkimuodossa.

Tarkkuus ja saanti

Tiedonhakujärjestelmiä arvioidaan yleisesti kahdella tavalla: tarkkuudella ja saannilla. Tarkkuus mittaa, kuinka hyvin löydetyt dokumentit vastaavat annettua hakulauseketta. Saannilla kuvataan sitä, kuinka suuren osan relevanteista dokumenteista haku palauttaa. Saanti ei ole ongelma Internet-hakujen yhteydessä. Dokumentteja löytyy yleensä paljon, mutta tarkkuus on heikko. Tähän ovat syynä indeksoinnin mataluus ja hakukielen rajoitukset. Luonnollisesti haku ei voi myöskään löytää mitään sellaista, mitä ei ole; hakujärjestelmien tietokannat eivät peilaa täydellisesti Internetin tietoavaruutta.

Mitä suurempi osa dokumentista indeksoidaan, sitä varmempaa on, että se löytyy jollakin haulla. Koko tekstin indeksointi on kuitenkin kustannus- ja aikakysymys. Suuri tietokanta vie enemmän levytilaa kuin pieni, ja koko tietokannan päivittäminen on iso urakka. Jotta linkkitiedot pysyisivät ajan tasalla, suursiivous olisi kuitenkin tehtävä silloin tällöin, muuten haun tuloksesta joutuu ensin siilaamaan pois kaikki vanhat, toimimattomat hyperlinkit. Näin käy valitettavan usein Lycosia käytettäessä.

Kaikki hakujärjestelmät eivät indeksoi dokumentin koko tekstiä. Ne saattavat indeksoida vain dokumentin otsikon ja hyperlinkkitekstit (ankkuritekstit), kuten Jumpstation ja WWWW tekevät. Koska otsikko, <title>, ei ole pakollinen osa HTML-dokumenttia, se voi puuttua. On arvioitu, että se puuttuu 20%:sta WWW-dokumentteja. Otsikko ei myöskään välttämättä kerro yhtään mitään dokumentin sisällöstä. Tekstin sisällä olevat linkitkin voivat osoittaa aivan eri asioihin kuin mistä teksti kertoo.

Tietokannaltaan suurin hakujärjestelmä Lycos indeksoi dokumentin otsikon, väliotsikot, tekstin ensimmäiset 20 riviä sekä koko tekstin 100 tärkeintä sanaa (Lycosin mielestä). Vaikka Lycos mahtailee 5 miljoonalla URL:illa, todellisuudessa niistä on indeksoitu tällä tarkkuudella vain vajaa miljoona, lopuista on indeksoitu vain otsikko. Kohtuuden nimessä on sanottava, että myös muissa hakujärjestelmissä on jokunen määrä tällaista 'klappia'. Koska Lycosin tietokanta on mittava, haku tuottaa yleensä paljon dokumenttiviittauksia, mutta suuri osa niistä voi olla täysin turhia. Lycos helpottaa kuitenkin haun tulosten analysointia antamalla dokumenteille erilaiset WAIS-painokertoimet sen mukaan miten usein hakusanat esiintyvät dokumentissa ja kuinka lähellä sen alkua. Lisäksi Lycos kertoo monenlaista hyödyllistä dokumentista, jos hakunäytöllä 'verbose'-kytkin on päällä.

Nykyisistä hakujärjestelmistä vain InfoSeek ja WebCrawler indeksoivat dokumenttien koko tekstin. Ne antavat tulokseksi usein 'ei-oo':ta, koska niiden tietokannassa yksittäisiä URL:eja on vähemmän kuin Lycosissa, mutta kun jotain löytyy, se on täsmällisemmin sitä mitä haettiin. InfoSeekin koko tietokanta päivitetään lisäksi kerran kuussa. Valitettavasti InfoSeek on lyhytsanainen mitä tulee löydettyihin dokumentteihin. Ne on kutsuttava esille, ennen kuin voi todeta mitä ne oikein ovat. On muuten syytä huomata, että InfoSeekin muut tietokannat kuin WWW-tietokanta ovat maksullisia.

Kehittyneissä hakukielissä - kuten esim. TENTTU- ja EU:n ECHO-tietokannoissa käytössä oleva kansainvälinen CCL (Common Command Language) - voi käyttää:

Boolen operaattoreita AND, OR, NOT
sulkumerkkejä osoittamassa käsittelyjärjestystä
katkaisu- ja peittomerkkejä
läheisyysoperaattoria
sumeaa logiikkaa, "samalta näyttävä tai kuulostava"

Ainoa Internet-hakujärjestelmä, joka tarjoaa nämä kaikki - ja joka osaa käsitellä skandinaavisia kirjaimia - on kotimainen uutuus Trampoliini (http://www.inet.fi/trampoliini/ ), jolle voi veikata menestystä. Se indeksoi suomalaisiin WWW-palvelimiin tallennettujen sivujen kokotekstin. Haun tulos näyttäisi olevan satunnaisjärjestyksessä. Jo aikaisemmin pohjoismaisista WWW-sivuista on voinut tehdä hakuja osoitteessa http://www.ub2.lu.se/wwwindex.html.

InfoSeekin hakukieli on iso askel oikeaan suuntaan, mutta matkaa on vielä jäljellä. Läheisyysoperaattoreita on jopa kaksi erilaista, ja +/- - merkillä sanan edessä voidaan määritellä, pitääkö kyseisen sanan esiintyä tekstissä vai onko se kielletty. Sen sijaan Boolen operaattoreita ei voi käyttää, ei myöskään katkaisu- ja peittomerkkejä. Useampi kuin yksi sana InfoSeek-haussa tulkitaan AND-hauksi, kuten WebCrawlerissakin. WebCrawlerissa AND vaihtuu OR:ksi hiirenkorvan napsauksella. Lycos sen sijaan tarjoaa oletuksena OR-operaattoria, mikä vain lisää haun tuloksen suuruutta, ellei huomaa vaihtaa OR:ia AND:ksi. Katkaisumerkin sijasta Lycosia voi määrätä etsimään juuri tietyllä tavalla päättyviä sanoja, mikä suomalaisille on hieman hassu ajatus, mutta paremman puutteessa silläkin pärjää jollakin tavalla. Kielletyt sanat merkitään InfoSeekin tapaan miinusmerkillä. Hakujärjestelmistä CUI ja WWWW osaavat myös tulkita Perl-komentokielen säännöllisiä lausekkeita (regular expressions).

Hakuautomaatit jättävät paljon Internetistä löytyvää aineistoa käsittelemättä. Paitsi että ne eivät käy läpi kaikkia mahdollisia WWW-palvelimia, ne hylkäävät aineistoa myös yksittäisellä koneella. Nyrkkisääntö sanoo, että edellä kuvatuilla hakujärjestelmillä löytää vain pakkaamattomassa muodossa olevia "normaaleja" dokumentteja ja valikkotekstejä (http, ftp, gopher). Hauilla ei löydä suoraan esim. pakattuja tiedostoja, binääritiedostoja (ohjelmia), grafiikka-, video-, animaatio- ja äänitiedostoja eikä WAIS-, News-, Telnet- ja Mailto-tyyppisiä tiedostoja ja linkkejä. Näiden etsimiseksi on edettävä entisajan tyylillä: haettava tiedoston tai palvelun nimi ja paikka selville esim. selailemalla sopivia linkkikokoelmia, lukemalla uutisryhmiä, sähköisten listojen arkistoja ja FAQ-listoja (ftp://rtfm.mit.edu/pub/usenet/news.answers), hakemalla ohjelmatiedostoja Archie'lla jne.

Hakuautomaattien alalaji ovat palvelut, jotka indeksoivat "sekundääridokumentteja" eli valmiita linkkikokoelmia kuten CUI, tai tarjoavat mahdollisuuden hakea monesta hakuautomaatista yhtaikaa, niin kuin CUSI. Monen haun yhdistäminen kuulostaakin ensialkuun hyvältä ajatukselta. Hakulauseke naputellaan vain kerran, ja sitten voi vain odotella. Mutta ainakin CUSI:n käyttöliittymänä toimiva WWW-sivu on sekava, haun tulosta joutuu odottelemaan kauan, ja loppujen lopuksi kahlattavaa on haun tuloksessa liian paljon.

Organisoitu yhteistyö tuottaa Internetiin jatkuvasti lisää aiheen, paikan tai jonkun muun kriteerin mukaan lajiteltuja hakemistoja ja opaskokoelmia. Listoja täydennetään enimmäkseen ihmisvoimin, ja niiden kattavuudesta ja ajantasaisuudesta on osaltaan vastuussa jokainen Internetin jäsen. Jo klassisia apuneuvoja ovat mm.:

The WWW Virtual Library (http://www.w3.org/hypertext/DataSources/bySubject/Overview.html)
EINet Galaxy (http://www.einet.net/galaxy.html)
Planet Earth (http://white.nosc.mil/info.html)
Yahoo (http://www.yahoo.com/)
The Whole Internet Catalogue (http://nearnet.gnn.com/wic/newrescat.toc.html)
Clearinghouse for Subject-Oriented Internet Resource Guides (http://http2.sils.umich.edu/Resources.html)
Koko Suomi (http://www.cs.hut.fi/suomi.html)
Suomen uutuudet (http://www.cs.helsinki.fi/~porttiki/uutta.html)

Toisenlainen esimerkki organisoidusta yhteistyöstä on INTERNET-palvelujen luettelointi kirjastoissa. Sen takana on ajatus siitä, että Internetin palvelut ovat kirjaston fyysisten kokoelmien (kirjat, sarjat, lehdet, CD-ROM-tietokannat jne.) elektroninen jatke. Kirjastot tallentavat nykyisin kokoelmiensa bibliografiset tiedot online-tietokannaksi MARC-standardin mukaisiin tietueisiin. Kun standardiin lisätään nk. Internet-kenttä, siihen voidaan tallentaa Internetissä sijaitsevan elektronisen dokumentin tai palvelun hyperlinkki. Katso esimerkkiä USA:sta, OCLC Online Computer Library Center, Inc.'in johtamaa projektia "Building a Catalog of Internet Resources." <URL:http://www.oclc.org:6990/>

Haen mitä tiedän, tiedän mitä haen

Ennen WWW-aikaa Internetistä etsittiin tietoja etupäässä niin, että ensin tultiin tavalla tai toisella tietoisiksi siitä, minkä Internet-protokollan alle haluttu tieto kuului ja sitten käynnistettiin kyseiseen protokollaan erikoistunut hakuohjelma. Kun tieto löytyi, se kopioitiin näyttöruudulle tai levytiedostoksi.

Vaikka WWW on yksinkertaistanut Internet-hakuja, tiedonhaun perusparadoksi elää edelleen: on osattava kuvailla ja määritellä kohtuullisen tarkasti se mitä halutaan tietää ennen kuin se tiedetään! Lisäksi on syytä olla selvillä siitä, minkätyyppistä ja -muotoista tietoa etsii ja mitä on tarjolla. Ilman perustietoja hakujärjestelmistä, niiden käytöstä ja rajoituksista ei myöskään pärjää. Ja jottei totuus unohtuisi, on muistettava, että vaikka tietäisikin mitä, mistä ja miten hakea, lopputulos voi silti olla nolla tai lähes nolla siitä syystä, että

elektroninen tieto ei ole sama asia kuin koko maailman tieto, se on vain osa sitä
Internet ei ole yhtä kuin koko maailman elektroninen tieto, vrt. CD-ROM-tietokannat
kaikki tieto ei ole vapaasti haettavissa eikä saatavissa, ei Internetissä eikä muualla

Lähteet

Notess, Greg R., Searching the World-Wide Web: Lycos, WebCrawler and More. Online July/August, 1995, p. 48-53. (On the nets)

Notess, Greg R., The InfoSeek databases. Online August/September, 1995, p. 85-87. (On the nets)

Pinkerton, Brian, Finding what people want : Experiences with the WebCrawler. Electronic proceedings of the Second World Wide Web Conference '94: Mosaic and the Web. <URL:http://www.ncsa.uiuc.edu/SDG/IT94/Proceedings/Searching/pinkerton/WebCrawler.html > (1994).

Searching the World Wide Web with Lycos and InfoSeek <URL:http://www.leeds.ac.uk/ucs/docs/fur14/fur14.html>