import stanza #stanza.download('et') - eesti keele mudel on vaja alla laadida vaid esmakasutamisel nlp = stanza.Pipeline(lang='et') #Käivitatakse kõik eestikeelse teksti märgendamismoodulid. # Võimalik on ka valida ainult vajaminevad moodulid, nt sõnestamine, sõnaliigimärgendus, lemmatiseerimine: # nlp = stanza.Pipeline(lang='et', processors='tokenize,pos,lemma') doc = nlp(open('katkend.txt').read()) #Märgendatava teksti valik ja sisselugemine. valjund = open('katkend_m.txt', 'w') #Uue faili loomine märgendatud väljundi talletamiseks. #Iga lause iga sõna kohta kirjutatakse faili sõna järjekord lauses, sõna tekstis esinev kuju, # sõna algvorm ja sõnaliik nii rahvusvahelise kui ka eestipärase märgendiga. Eraldajaks tabulaatorid. for sent in doc.sentences: for word in sent.words: margendid = '\n'.join([f'{word.id}\t{word.text}\t{word.lemma}\t{word.upos}\t{word.xpos}']) valjund.write(margendid+'\n') #NB! Taandrida - iga sõna märgendid kirjutatakse faili rea kaupa. valjund.close()