Mina olen A. S. , esimese kursuse doktorant, eriala lingvistika. Olen lõpetanud vene keele ja kirjanduse õpetaja erialat. Oma magistritöös uurisin umbisikulisi lauseid. Töö koosnes kahest osast: teoreetilisest ja praktikalisest. Teooria osas uurisin umbisikuliste lausete ajalugu, nende semantikat ja tüpoloogiat, toetades nii traditsioonilisele (Shahmatov, Peskovski, Vinogradov jt), kui ka funktsionaalsele lähenemisele (Zolotova, Bondarko, Onipenko, Bulõgina, Smeljov jt).Töös oli tehtud katset üldistada ja süstematiseerida laialdast materjali umbisikulistest lausetest ning koostada nende tüpoloogiat, analüüsides keelematerjali (ilukirjandust, meediatekste, kõnekeelt jt). Material oli võetud Vene Keele Rahvuskorpusest. Otsisin neid lauseid käsitsi (verb umbisikulises vormis: 3 isik, mitmuses, oleviku, tuleviku või mineviku vormis).Tüpoloogilise klassifikatsiooni aluseks oli kaks tunnust - formaalne (kas subjekt on nimetatud/pole nimetatud; formaalselt väljendatud või mitte väljendatud) ja kontekstuaalne (kuidas need laused funktsioneerivad keeles või kuidas neid kasutatakse). Mõningal määral jätkan seda teemat. Doktoritöö teema on Morfosüntaksitiliste konstruktsioonide kasutus eestikeelsete kõnelejate vene õppija keeles. Missugused konstruktsioonid kasutavad vene emakeelega könelejad ja eestikeelsed kõnelejad vene õppija keeles. Ettekande teema on vene õppijakeele korpuse koostamise põhimõtted. Selle töö raames on põhiline avada korpuse koostamise eesmärgid, põhimõtted ja tulevane rakendus. Ettekanne on lühike ülevaade sellest, mida tuleb korpuse koostamisel silmas pidada. Korpuse koostamise põhimõtted, tekstide valik, sisu tuleneb otseselt eesmärgist. Koprus peab olema uuritava nähtuse suhtes representatiivne ja balanseeritud. Selle töö käigus oli uuritud järgmisi küsimusi: Mis eesmärkidel on mõeldud korpus koostada? Kuidas korpus on koostatud? Millest korpus koosneb ning mida ta peab sisaldama (suuline ja kirjalik materjal, metainfo näiteks teksti koostaja kohta: sugu, vanus, emakeel jne, admed teksti kohta: maht sõnades ja lausetes, tekstiliik, teksti koostamise laad)? Kellele on mõeldud korpus? Mis eesmärgil korpus kasutatakse? Minu lähim eesmärk on vene õppijakeele korpuse koostamine, mis sisaldab kooliõpilaste vene keelt esimese ja teise keelena. Kuna doktoritöös on kavas võrrelda vene keele kui esimese (K1) ja teise keele (K2) kasutust Eestis, siis on kavas koostada EVKK vene õppijakeele allkorpus Standardkorpusena (võrdluskorpusena) on kavas kasutada Helsingi Ülikooli HANCO-korpust (Helsinki Annotated Corpus), sest korpus on representatiivne, väga hoolikalt koostatud, morfoloogiliselt ja süntaktiliselt märgendatud ning kontrollitud. Antud ettekandes on olulised järgmised mõisted: õppijakeel, korpus, õppijakeelekorpus. Keeleteaduses on sõna korpus all mõeldud kirjalike tekstide või transkribeeritud kujul suulise kõne kogusid, mida kasutatakse keele uurimise ja kirjeldamise alusena (Kennedy 1998: 1) See mõiste mitmetähenduslik ja kasutatakse ebaselgelt. Üldkasutuses mõistetakse korpuse all mis tahes tekstikogu, mis on elektroonsel kujul. Viimasel ajal mõistetakse korpuse all mitte lihtsalt teksti (ingl a running text), vaid keelematerjali kogu, mis on spetsiaalselt valitud ühel või teisel eesmärgil (Копотев 2003: 37-38) Kadri Muischneki järgi on korpus polüfunktsionaalne elektroonsel kujul olev tekstikogu, millesse kuuluvad tekstid on valitud eesmärgipäraselt, nii et nendest koosnev tervik annaks tõepärase pildi kogu keelest. Niisiis korpust iseloomustab: 1. kindlaspiiriline tekstivalik ja representatiivsus (ingl sampling and representativeness) 2. piiratud suurus ehk maht (finite size) 3. arvutis nähtav ja töödeldav tekstikogu (machine-readable form) 4. standardmärgendusega (a standard reference)   Mare Kitsnik on artiklis Õppijakeele uurimine ja arendamine - põnev väljakutse defineerinud õppijakeelt kui sellist keelevarianti, mis õppija ise loob õppimise ajal ning milles ta kaldub rohkemal või vähemal määral standardist kõrvale. Õppijakeelt on nimetatud ka vahekeeleks (ingl interlanguage) Pille Esloni & Helena Metslangi järgi on vahekeel keel, mida õppija loob emakeele (K1) ja õpitava võõrkeele (K2) alusel (Selinker 1969, 1972, 1992, Corder 1981 jt), mõnikord ka juba omandatud võõrkeel(t)e, emakeele ning õpitava keele alusel (Michiels 1999, Cenos jt 2001, Hufeisen, Neuner 2003 jt) Vahekeelt on nimetatud ka sihtkeele variandiks, mis mõningal määral kaldub normist kõrvale.Pille Eslon & Helena Metslang toovad esile järgmised psühholingvistilised tegurid, mis seda mõjutavad: 1. ülekanne K1 või K2, K3 jne põhjal 2. ülekanne, mida õppija teeb õppimise alusel 3. õppistrateegiast tulenev vigane keelekasutus 4. suhtlusstrateegiatest lähtuv kõrvalekalle normist 5. analoogiapõhine üldistamine ning reegli kasutamine selleks sobimatus kontekstis Õppijakeele korpus (ingl learner coprus) on elektroonne keeleressurss. Sellega mõistega paralleelselt kasutatakse ka terminit vahelekeele korpus (ingl interlanguage corpus) ja teise keele korpus (ingl L2 corpus) Selle all mõistetakse elektroonset keelekogu, mis koosneb teise keele või võõrkeeleõppija loodud kirjalikest tekstidest ja / või suulise kõne näidetest, milles keelevead võivad olla märgendatud ja klassifitseeritud. Graeme Kennedy järgi on korpuse koostamisel  kolm peamist etappi: 1. korpuse kavandamine (ingl corpus design) 2. tekstide kogumine (text collection) või andmete salvestamine (caprute) 3. teksti koodering (text encoding) või teksti märgendus (text markup)   Korpus kavandamine sõltub otseselt sellest, milleks korpus on mõeldud ja kuidas korpust oleks võimalik tulevikus kasutada.   Korpuse koostaja peab ise otsustama, mis tüüpi korpus on? Doktoritöö raames planeeritakse koostada vene õppijakeele korpus, mis on eesti vahekeele korpuse (EVKK) allkorpus. See on avatud ehk monitorkorpus, millest võib vajadusel osa tekste välja jätta, neid sinna juurde lisada või välja vahetada. See on spetsiaalne korpus, sest see on koostatud kindlal uurimiseemärgil (uurida ja võrrelda vene keele kui esimese (K1) ja teise keele (K2) kasutust Eestis).   Toetudes EVKK juhendile, võib vene õppijakeele allkorpust kasutada: 1. igaüks, kel on huvi vene õppijakeele vastu; 2. tulevikus on see õppekeskkond vene keele õppijale, õpetajakoolituses ja täiendõppes osalejale; 3. üliõpilaste, magistrantide ja doktorantide töökeskkond (huvi vene ja eesti õppijakeele (kõrvutava) uurimise vastu); 4. soovi korral võib korpuses luua oma töökeskkonna ning arendada korpust vastavalt kitsamale uurimisteemale, lisades uusi märgendusi ja täpsustades üldist veaklassifikatsiooni; 5. kasutades korpuse materjali, on oluline korpusele viidata.   Vene õppijakeele korpus on kirjalike tekstide kogu (esseed)  Maht klassikaliselt 1 miljon sõna, esimene etapp - 500 000 sõna, millest -250 000 eestlaste vene õppijakeele näited  -250 000 vene emakeelega kooliõpilaste esseed Vene õppijakeele veaklassifikatsiooni loomine.EVKKs on viga (error) määratud kui grammatikareeglile mittevastav keelekasutus. Vigade hulka ei kuulu väsimusest, hooletusest, müradest kommunikatsioonikanalis jms põhjustel tekkinud eksimused (mistakes) ning keelevääratused (lapsus lingua).   Planeeritakse koguda klassis ja kodus kirjutatud tekstid. Sihtgruppis on põhikooli ja gümnaasiumi õpilased. On oluline ka määrata metainformatsioon õpilaste kohta (vanus, klass, emakeel jne, vt EVKK metainfo - eestikeelne tõlgitakse vene keelde, lisatakse uusi küsimusi).Andmete kogumisel ja tesktide korpusesse sisestamisel tuleb lähtuda autoriõigustest (vaja nõusolekut autorilt või kõnelejatelt). Ei saa salvestda vestlusi enne, kui kõik osalejad andud oma nõusoleku. Sama kehtib kirjalikke dokumentide osas. EVKK veebil on olemas luba tekstide kasutamiseks.   Õpilastele antakse ankeeti, mida ta ise täidab. Õpetajatele antakse ankeeti, mida ise täidab Õpilased täidavad ankeedi, kus annavad oma luba nende tekstide kasutamiseks teadustöö eesmärgil.   Tekstid on erineva pikkusega. Esindatud on erinevat liiki loomingulist laadi tekstid (lühikesest ümberjutustusest klassikirjandi ja esseeni). Tekstid on digiteeritud ja üle kontrollitud, et ei oleks mittevajalikke tühikuid, juhuslikke sisestamise apse jms.   Kennedy peab oluliseks korpuse representatiivsust ja tasakaalustatust (balanseeritust). Ta toetab Leechi mõtet, et korpus on representatiivne siis, kui korpusanalüüsi tulemused kajastavad kogu keele või selle allkeel(t)e seisundit (Kennedy 1998: 62) Õppijakeelekorpus peaks sisaldama nii kirjalike tekste kui suulist kõnet:  on oluline kasutada mitte ainult kirjalikku, vaid ka suulist allikmaterjali, kuna võrreldes kirjalike tekstidega on suuline kõne vabam metalingvistilisest mõjust ning peegeldab õppija vahekeele arengut ja selle taga peituvaid mentaalseid protsesse paremini (Eslon & Metslang 2007: 101) Väikeses mahus on kavas lindistada eesti ja vene kooliõpilaste suulisi vastuseid.     Kogutud tekstide ettevalmistamine uurimistööks: -Tesktid peaksid olema salvestatud ühes formaadis, mis sobib vene keele tarkvara rakendamiseks tavaliselt txt-formaat (ingl plain text format) -Korpuse koostaja peab otsustama, missugust lisainformatsiooni on vaja (nt õpilase vanus, sugu, klass, teksti kirjutamise aeg ja koht jne).   1. Lingvistiline informatsioon sõnaliikide märgendamine, kus igal sõnavormil on märgend, mis näitab selle sõna klassiLauseliikmete märgendamine                   Märgendid lisatakse käsitsi 2. Vealiikide märgendamine Lingvistilise veaklassifikatsiooni alusel                   Märgendid lisatakse käsitsi Vealiigimärgenduse tulemusena eraldatakse üksteisest korrektne ja normist kõrvalekalduv keel. Vealiigid märgendatakse kuue põhitasandi lõikes (ortograafia, morfoloogia, süntaks, leksika, stiil, muu). Keelevigade põhitasandite kõrval määratletakse ka keelevigade alltüübid. Märgendamissüsteem peab katma võimalikult erinevad vealiigid ning võimaldama ühele sõnale (fraasile, lausele, lauseosale) lisada ka mitu erinevat märgendit. Vead märgendatakse ka sõnaliigiti. Keelevigade sagedusloend annab ülevaate õppijakeele tekstides esinevate sõnade tegeliku esinemissageduse kohta ning võimaldab teha statistilisi uurimusi. Statistiline analüüs peegeldab ka teatud sõnade või grammatiliste vormide üle- või alakasutust õppijakeeles.   Tekstid on korpuses kahel kujul: märgendamata (puhtad tekstid) ja märgendatud Korpusest saadakse väljavõtteid iga üksikmärgendi kaupa vealiik, sõnaliik, lauseliige  Kasutatakse ühtlustatud märgendeid ·       S = substantiiv, V = verb, ADV = adverb jne Vealiigi märgenduse puhul pole alust väita, et kasutatud märgendussüsteem oleks ainuõige, kuid tavaliselt on kasutatud lingvistilist veaklassifikatsiooni ·       aspekti valik (pöördelise vormina, infinitiivina), imperfektiivse aspekti oleviku viga, perfektiivse aspekti tuleviku viga, винительный käände kasutamise viga jne Ükski märgendusviis ei saa ennast kuulutada standardiks, kuid standardid võivad siiski hõlbustada märgendatud korpuste võrdlust jne