RAAMATUKOGU ELEKTRONKATALOOG 2: ANDMEBAAS

 Sirje Nilbe, Eesti Rahvusraamatukogu normandmete osakonna juhataja


"Infofoorumi" teises numbris oli juttu elektronkataloogide (EK-de) kujunemisest ja funktsionaalsest struktuurist. Seekord vaadelgem, milliseid andmeid säilitatakse EK andmebaasis ja kuidas neid vormistatakse.

Tavapäraseimad andmekogumid EK-s on bibliokirjed, autoriteetfailid ja registrid.

Bibliokirjed

Kõige tähtsamad andmed, mida elektronkataloogi andmebaasis hoitakse, on loomulikult bibliokirjed. Bibliokirjete põhisisu pole arvutiajastul muutunud võrreldes kaartkataloogide ja trükibibliograafiatega. Kirjed koostatakse ikka kirje- ja kataloogimisreeglite järgi, kuid andmete arvutitöötlus ja infovahetus raamatukogude vahel seab suuremad nõuded kirjete korrektsusele ja reeglite ühtlustamisele.

Tänapäeval on peaaegu kõigis maades kataloogimisreeglite aluseks ISBD-d (International Standard Bibliographic Description). ISBD-d on IFLA poolt välja töötatud standardite rühm, mis määrab eri teavikutüüpide kirjeldamisel esitatavate andmete valiku, vormi ja järjekorra, samuti kirjavahemärgid, mida kirjes kasutatakse. ISBD-d ei käsitle pealdisi, sisuavamiselemente ega muud täiendavat teavet, mis kataloogikirjes antakse. Teisalt on eri maade kataloogimisreegleid de facto standardina mõjutanud angloameerika reeglid (AACR, Anglo-American Cataloguing Rules). Nende teine, uuendatud väljaanne AACR2 põhineb kirje osas samuti ISBD-le, kuid sisaldab lisaks pealdiste, s.t. otsitunnuste moodustamise reegleid. Seega on praeguseks maailmas saavutatud märkimisväärne ühtsus teavikute kirjeldamisel ja otsielementide määramisel.

Kirjete juurde kuuluv sisuanalüüs pole kaugeltki nii hästi reeglistatud. Teavikute sisu avamises valitseb maailmas suur kirevus, selle standardiseerimine on raske, kui mitte võimatu ülesanne. Kõige üldisemalt jaguneb intellektuaalne (inimese tehtav) sisuanalüüs liigituseks ja märksõnastuseks, mille tulemusel lisatakse bibliokirje kirjeldavale osale liigiindeksid ja märksõnad. Detailsemat sisututvustust, nt. annotatsioone, sisukokkuvõtteid, sisukordi, kataloogikirjest tavaliselt ei leia. Nende lisamine tuleb kõne alla vaid laia teeninduspiirkonnaga keskkataloogimisasutuste olemasolu puhul, kuid igal juhul aeglustab see infotöötlusprotsessi tunduvalt.

Ühtsed kirjereeglid on loodud silmas pidades bibliokirjete levitamist paberkandjal. Kirjete arvutitöötlemine esitab nende vormile ja struktuurile oma nõuded, mis johtuvad osalt arvuti tööpõhimõtetest, osalt neist funktsioonidest, mis masinloetaval bibliokirjel täita tuleb.

Kaartkataloogimise ja arvutikataloogimise alused on mitmes suhtes erinevad. Kaartkataloogimise eesmärgiks on "valmistoote" - kataloogikaardi koostamine, arvutikataloogimisel ainult määratletakse bibliograafilised andmed ja varustatakse need tunnuskoodidega. Iga teaviku kohta on vaja koostada vaid üks põhikirje, millest arvuti abil võib saada mitmesuguseid "valmistooteid" - erineva pealdisega kataloogikaarte, bibliograafiaid, nimestikke, inventariraamatuid. Põhikirjeid saab kasutada siduskataloogi andmebaasis, laenutuste kontrollis jms. Koopiaid levitamiseks saab teha kiiresti ja kvaliteetselt.

Masinloetav kirje peab olema arvutisüsteemile täiesti ühemõtteliselt esitatud. Kaartkataloogi kasutaja mõistab paljusid andmeid oma eelteadmiste põhjal. Näiteks on teose keel selline teave, mida kaardil ei ole eraldi mainitud. Kirje alad ja elemendid tuntakse ära nende sisu, asukoha ja järjestuse järgi kaardil. Arvutisüsteemi jaoks tuleb kõik andmed täpselt kodeerida, et see oskaks neid õigesti interpreteerida. Peale selle poleks masinloetavate kirjete koostamisel erilist mõtet, kui neid ei saaks magnetkandjal või sideliinide kaudu levitada. Seepärast kehtib juba 1981. aastast ISO standard "Format for bibliographic information interchange on magnetic tape" (ISO 2709), mis on kõigi arvutipõhiste kataloogimissüsteemide nurgakivi.

ISO 2709 määrab kindlaks kirje põhistruktuuri ja mitmesuguste tehniliste andmete esitusviisi. Kirje täpsem struktuur ja kasutatavad koodid määratletakse nimetatud standardi rakendustes - bibliograafilistes formaatides, millest tuntuimad kuuluvad MARC-rühma.

Algne MARC (Machine Readable Cataloguing) loodi aastail 1965-1966 Kongressi Raamatukogus, kus katsetati kataloogikirjete tootmist arvuti abil. Suurbritannias tegeldi samalaadse projektiga, eesmärgiks kasutada masinloetavaid kirjeid Briti rahvusbibliograafia trükiväljaande tegemisel. 1968. aastal algas koostöö, mille tulemusena loodi nn. MARC II. Selle funktsioon pidi olema eelkõige kommunikatiivne - MARC oli defineeritud kui teabeedastusformaat. Hiljem Ameerika ja Briti MARC-id siiski lahknesid ja nii tekkisid USMARC ja UKMARC . Nende eeskujul on paljudes maades loodud oma rahvuslikud formaadid arvestades kohalikku kataloogimispraktikat ja muid vajadusi (nt. CanMARC, FINMARC, Saksamaal MAB).

Rahvusvahelist infovahetust selline paljusus muidugi takistab. Võõraid MARC-e tuleb tundma õppida, kirjete ülevõtmiseks tuleb kirjutada konverteerimisprogrammid, mis pole alati lihtne. Viimastel aastatel toimib taas ühtlustumistendents, sest bibliokirjete rahvusvaheline ühiskasutus üha levib. Euroopa ühisformaadiks näib kujunevat IFLA poolt hallatav UNIMARC , mida soosib ka Euroopa Liit. Paljud Kesk- ja Ida-Euroopa maad pole hakanud oma rahvuslikke formaate välja arendama, vaid on võtnud kasutusele UNIMARC-i või USMARC-i. Mitmed Lääne-Euroopa riigidki on üle läinud UNIMARC-ile. USMARC-i CanMARC-i ja UKMARC-i integreerimiseks on käimas pikaajaline programm.

Eestis võetakse teadusraamatukogudes kasutusele USMARC, sest sellel põhineb ostetav raamatukogusüsteem INNOPAC. TÜ raamatukogu praegune elektronkataloog toetab FINMARC-i, nii et konverteerimisprobleemid on meilgi kohe omast käest võtta.

Järgnevalt on esitatud üks näide USMARC-formaadis kirje kohta, mis traditsioonilise põhikirjena näeks välja nii:

                Saaksin ma saksa sundijaks / Eesti NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut ; toimetanud Eduard Laugaste. - Tallinn : Eesti Raamat, 1976. - 427 lk. : ill. ; 23 cm. - Kokkuvõtted vene ja saksa keeles. - Bibliograafia lk. 417-425. - (Uurimusi eesti regivärsi ja rahvajutu alalt ; 1).

MARC-kirje:

LDR *****nam##22*****5i#****

DIR (süsteemi poolt genereeritud kataloog)

001 (kontrollnumber)

003 (kontrollnumbri identifikaator)

005 (viimase tehingu kuupäev ja kellaaeg)

007 ta

008 970401 s1976#### ee#a### ###### #000#0# est#d

041 0# $aest$bgerrus

080 ## $a398.8.09(=511.113)(082)

245 00 $aSaaksin ma saksa sundijaks /$cEesti NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut ;. toimetanud Eduard Laugaste

260 ## $aTallinn :$bEesti Raamat,$c1976

Kirje esimene pool sisaldab mitmesuguseid kodeeritud andmeid. Paljud neist genereeritakse süsteemi poolt tehniliseks otstarbeks, aga osa iseloomustavad ka kataloogitavat infokandjat. Näiteks kood a kirje päises (leader, lüh. LDR) 7. kohal näitab, et tegemist on keelelise materjaliga, sellele järgnev m tähendab monograafilist kirjeldustaset. Väli 007 on ette nähtud materjali füüsilise kirjelduse jaoks ja sellel asuvad koodid t ja a tähistavad teksti harilikus trükikirjas. Välja 008 kuus esimest kohta on mõeldud kirje koostamise kuupäeva jaoks, järgmise koodirühmaga tähistatakse trükise ilmumisaastaid. Järgmise rühma alguses on ilmumismaa kood ee (Eesti), järgnev kood a näitab, et trükises leidub illustratsioone jne. Viimases rühmas olev kood est tähistab teose põhikeelt. Märgiga # on siin näites tähistatud tühikud, s.o. formaadis defineerimata positsioonid ja defineeritud, kuid antud juhul väärtust "tühik" omavad positsioonid.

Edasi tulevad väljad, mis koosnevad välja märgendist ehk numbrist, kahest indikaatoripositsioonist, mis vajaduse korral täpsustavad järgnevate andmete iseloomu või päritolu, ja alamväljadeks jaotatud andmetest. Alamvälja algust tähistab näites märk $, millele järgneb üks araabia väiketäht. Väljal 041 on teose keeled kodeeritud kujul: alamväljal a eesti keel põhikeelena ja alamväljal b saksa ja vene keel kokkuvõtete keeltena. 080 on UDK indeksi jaoks. Traditsioonilised kirjeandmed algavad väljaga 1XX, kuhu pannakse põhipealdis. Antud näites põhipealdist ei ole, sest kirjereeglite järgi tuleb trükist kirjeldada pealkirja järgi.

245 on pealkirja ja vastutusandmete väli. Mõlemad indikaatorid on siin väärtusega 0, mis tähendab, et pealkirjale ei tehta täiendkirjet ja järjestamist alustatakse pealkirja esimesest tähest. Pealkiri on alamväljal a ja vastutusandmed alamväljal c. Kirjavahemärkidest niipalju, et kirjeala-sisesed märgid tuleb tavaliselt kirjutada käsitsi, kuigi mõni süsteem võib panna need ka automaatselt. Väljal 260 on ilmumisandmed, väljal 300 arvandmed. Väli 440 on siin seeriaandmete jaoks, toimides ühtlasi sarja täiendkirje pealdisena. Väljad 5XX on mitmesuguste märkuste jaoks ja erineva tähistusega selleks, et neist paremini aru saada ja vajaduse korral erinevalt töödelda. Osa märkusi näiteks võib olla kasulik indekseerida ja seega nendes esinevad sõnad otsitavateks teha, mõnda aga vahest ei tahetagi avalikus kirjes näidata, vaid hoida "ametialaseks kasutamiseks".

Väljad 6XX on märksõnade jaoks. Märksõnadena on USMARC-is tõlgendatud kõiki verbaalseid väljendeid, mis on kirjele lisatud tähistamaks teose sisu ja vormi - seega ka nimesid ja pealkirju käsitluse ainena. Antud näites on teosele omistatud kaks temaatilist märksõna (väljad 650), kohanimi märksõnana (väli 651) ja vormimärksõna (väli 655). Teise indikaatori abil saab ära näidata märksõna allika; väärtus 4 tähendab, et allikas (märksõnastik) ei ole määratletud.

Kirje lõpus on kaks täiendkirje pealdist, väljal 700 toimetajale ja väljal 710 kollektiivautorile. Kollektiivi nimi on esitatud kirje koostamise ajal kehtinud vormis. Indikaator 1 isikunime ees märgib, et nimi algab üheosalise perekonnanimega, indikaator 2 kollektiivinime ees seda, et sõnad on pärijärjestuses, s.t. pole kasutatud inversiooni.

Sellise kirje koostamine ja lugeminegi tundub üsna keeruline ja tülikas, aga tuleb harjuda. Pealegi on enamik kataloogimissüsteeme seadistatud nii, et osa koodide väärtusi antakse vaikimisi ette ja ka kõiki märgendeid pole vaja endal kirjutada. Korduvaid kirjeelemente nagu nimed, jadaväljaannete pealkirjad, märksõnad, liigiindeksid, saab oma kohale "tõsta" autoriteetfailist. MARC-vorming on vaid üks võimalikest kirje ekraanile kuvamise viisidest, mida lugejakataloogis ja enamikul raamatukoguhoidjatest pole õigupoolest vajagi. Ainult töötlejad peavad MARC-i hästi tundma, vähemalt seda osa, kuhu lähevad nende sisestatud andmed. Aga üldise ettekujutuse sellest, mis MARC-kirje on, milliseid andmeid sisaldab ja kuidas nende abil kataloogiotsingut teha, peaks küll iga raamatukoguhoidja endale looma.

Autoriteetfailid

Autoriteetfailid luuakse selleks, et hõlbustada autoriseeritud andmete ohjet ja kasutamist kataloogimisel. Autoriseerimist vajavad need kirje andmed, mis on otsitavad (access points) pealdistena: isikunimed, kollektiivinimed, ühtluspealkirjad, märksõnad, tihti ka liigiindeksid. Pealdise autoriseeritud kuju abil koondatakse kokku kõik antud autori või kollektiivautori teosed, samuti nt. klassikalise teose eri väljaanded, vaatamata sellele, millist kuju on kasutatud konkreetses teoses. Variantvormid hoitakse autoriteetfailis äraviidetena. Märksõnade ja liigiindeksite autoriseerimisega saab parandada sisuanalüüsi järjepidevust. Seda tööd on tehtud ka kaartkataloogimise ajal, kuid arvuti pakub siingi palju rohkem võimalusi kui abikartoteegid.

Autoriseeritud andmed on soovitatav vormindada nii, et neid saaks kasutada bibliokirjete koostamiseks ja infootsinguks. Selleks on loodud omaette formaadid, mis ühilduvad vastava bibliokirje MARC-formaadiga, nt. USMARC Format for Authority Data ja UNIMARC/Authorities. Kui ühes ja samas andmebaasis on ühilduvates formaatides bibliokirjed ja autoriteetandmete kirjed, ei pruugi bibliokirje pealdist füüsiliselt sisaldadagi, vaid piisab autoriteetkirje kontrollnumbrist, mille abil pealdis bibliokirje vaatamise ajal nähtavaks saab.

Järgnev näide kujutab endast USMARC-formaadis autoriteetkirjet kollektiivinime Eesti Keele Instituut kohta, mida eelnenud bibliokirjenäites kasutati täiendkirje pealdisena.

LDR *****nz###22*****0##****

DIR (süsteemi poolt genereeritud kataloog)

001 (kontrollnumber)

003 (kontrollnumbri identifikaator)

005 (viimase tehingu kuupäev ja kellaaeg)

008 970401 #n#az znnaa bn### ##### ##fa# ana## ##bd

110 2# $aEesti Keele Instituut

410 2# $aKeele ja Kirjanduse Instituut

410 2# $aEesti NSV Teaduste Akadeemia.$bKeele ja Kirjanduse Instituut

410 2# $aEesti Teaduste Akadeemia.$bKeele ja Kirjanduse Instituut

410 2# $aEesti Teaduste Akadeemia.$bEesti Keele Instituut

Nagu näha, sarnaneb autoriteetkirje põhistruktuur bibliokirje põhistruktuuriga. Kood z päises 7. kohal näitab, et tegemist on autoriteetkirjega, number 0 18. kohal tähistab lõpetamata kirjet. Välja 008 alguses on kirje tekitamise kuupäev. Kood a teises koodirühmas tähendab kinnitatud pealdist. a ja a kolmandas grupis näitavad, et väljendit võib kasutada nii deskriptiivse pealdisena kui ka märksõnana jne.

Väljal 110 on kollektiivinime autoriseeritud kuju, järgnevatel väljadel 410 selle variantvormid, mida kataloogimisel pealdiste ega märksõnadena ei kasutata, s.t. sisuliselt äraviited. Autoriteetkirje struktuuris on kohad ka definitsioonidele, juhendavatele ja muudele märkustele, aga siin pole neid kirja pandud.

Andmete autoriseerimine on küllalt töömahukas asi, kuid korralik autoriteetfail kergendab tunduvalt kataloogijate tööd ja parandab kataloogi kvaliteeti.

Registrid

Kolmanda andmekogumi, mida EK andmebaasis hoitakse, moodustavad registrid (indexes). Registrid tekitatakse bibliokirjete indekseerimise teel. See tähendab, et andmebaasihaldussüsteem koostab etteantud parameetrite järgi olulisematest kirjeandmetest loendid, mille abil ta hiljem leiab üles vajalikud kirjed. Registrite eesmärk on kiirendada otsingut, ilma nendeta peaks süsteem mingi tunnuse otsimisel läbi vaatama kõik kirjed, aga see võtaks vähegi suuremas andmebaasis liiga palju aega.

Kõige tavalisem registri vorm on nn. pöördfail (inverted file). Pöördfail koosneb otsitunnustest ja viitadest, mis juhatavad antud tunnuseid sisaldavate kirjete juurde. Viitadeks võivad olla kirjete identnumbrid või aadressid, mis näitavad kirje asukohta andmebaasifailis. Seega sarnanevad EK registrid trükistes, nt. raamatutes või bibliograafiates leiduvate registritega: raamaturegistris on aadressiks lehekülje number, bibliograafianimestikes kasutatakse viitadena tavaliselt kirjenumbreid. Vahe on selles, et EK registrid moodustatakse ja uuendatakse automaatselt.

Levinuimad registrid EK-des on autoriregister, pealkirjaregister, märksõnaregister, liigiregister ja võtmesõnaregister. Loendeid võib moodusteda ka teistest kirjeelementidest. Kõik sõltub sellest, milliseid otsitunnuseid peetakse antud süsteemi võimaluste piires otstarbekaks kasutajale esitada.

Samanimeliste registrite sisu võib süsteemiti erineda olenevalt sellest, millised MARC-formaadi väljad on indekseerimiseks valitud. Näiteks võib kollektiivautorid paigutada koos isikunimedega autoriregistrisse või moodustada neist omaette loendi. Isikunimed käsitluse ainena (personaalia) on mõnes kataloogis märksõnaregistris, teises jälle on moodustatud ühtne isikunimeregister, mille kaudu saab korraga kätte nii autori poolt loodud kui ka tema kohta kirjutatud teosed. Pealkirjaregister võib sisaldada nii üksikteoste kui ka jadaväljaannete pealkirju, teisal võivad viimased olla eraldi loendiks.

Otsivõimalused, mida lugejale pakuvad autori-, pealkirja-, märksõna- ja liigiregistrid, on olemas või vähemalt teostatavad ka kaartkataloogis. Elektronkataloogis täiendab neid (või on kasutussageduselt tihti lausa esikohal) võtmesõnaregister, mis moodustatakse valitud kirjeväljadel asetsevate keeleliste ühendite üksikutest sõnadest. Kõige kasulikumad otsinguks on muidugi igasuguste pealkirjade sõnad, aga ka kollektiivinimedes, märkustes jms. sisalduvad sõnad.

Eelpool esitatud kirjenäite teose ja sarja pealkiri annaks võtmesõnaregistrisse järgmised sõnad (ase-, side- ja kaassõnu ning muid otsiväärtuseta sõnu ei indekseerita; nende vältimiseks antakse süsteemile ette vahelejätuloend):

eesti

rahvajutu

regivärsi

saaksin

saksa

sundijaks

uurimusi

Sellest näitest ilmneb ka võtmesõnaindekseerimise üks puudusi - see võib tekitada müra ja valeseoseid. Kogumiku pealkirja sõnad saaksin, saksa, sundijaks on võrdlemisi ebaadekvaatsed aineotsingu jaoks. Võtmesõnastamise tulu sõltub ka keelest - eestikeelse teksti "hakkimine" viib loendisse ühest ja samast sõnatüvest palju erinevaid vorme, tuletisi ning liitsõnu eraldi sissekannetena, mida ei saa ilma lisaabinõudeta koos otsida.

Registrid on vajalikud nii andmebaasihaldussüsteemile kirjete ülesleidmiseks kui ka kataloogi kasutajale oma päringu väljendamiseks otsiterminite abil. Kasutajale kuvatud registrivormingus pole viitasid näha, neid on vaja vaid otsimisprogrammile. Seevastu tunnusele vastavate kirjete üldarv pakub küll huvi kui eelorientiir otsingu tulemuslikkuse hindamiseks ning see arv on kasutajakuval tavaliselt olemas.

Elektronkataloogi andmebaasi sisu on seega rikkalikum ja keerukam kui esmapilgul, vaid lugejakataloogi moodulit kasutades paistab. Keerukus pole tingitud mitte niivõrd arvutitöötluse nõuetest, kuivõrd kataloogi andmebaasis hoitava informatsiooni iseloomust ja mitmekülgse taasleidmise vajadusest.

English

Tagasi koduleheküljele


Koostatud 31. juulil 1998
sirvir@tpu.ee