import stanza #stanza.download('et') - eesti keele mudel on vaja alla laadida vaid esmakasutamisel nlp = stanza.Pipeline(lang='et') #Käivitatakse kõik eestikeelse teksti märgendamismoodulid. # Võimalik on ka valida ainult vajaminevad moodulid, nt sõnestamine, sõnaliigimärgendus, lemmatiseerimine: # nlp = stanza.Pipeline(lang='et', processors='tokenize,pos,lemma') doc = nlp(open('fail.txt').read()) #Märgendatava teksti valik ja sisselugemine. valjund = open('fail_m.txt', 'w') #Uue faili loomine märgendatud väljundi talletamiseks. # Iga lause iga sõna kohta kirjutatakse faili sõna järjekord lauses, sõna tekstis esinev kuju, # sõna algvorm ja sõnaliik nii rahvusvahelise kui ka eestipärase märgendiga. Eraldajaks tabulaatorid. valjund.write('Id\tSona\tLemma\tUpos\tXpos\n') for sent in doc.sentences: for word in sent.words: margendid = '\n'.join([f'{word.id}\t{word.text}\t{word.lemma}\t{word.upos}\t{word.xpos}']) valjund.write(margendid+'\n') #NB! Taandrida - iga sõna märgendid kirjutatakse faili rea kaupa. valjund.close()