import stanza
#stanza.download('et') - eesti keele mudel on vaja alla laadida vaid esmakasutamisel

nlp = stanza.Pipeline(lang='et') #Käivitatakse kõik eestikeelse teksti märgendamismoodulid.
# Võimalik on ka valida ainult vajaminevad moodulid, nt sõnestamine, sõnaliigimärgendus, lemmatiseerimine:
# nlp = stanza.Pipeline(lang='et', processors='tokenize,pos,lemma')

doc = nlp(open('fail.txt').read()) #Märgendatava teksti valik ja sisselugemine.
valjund = open('fail_m.txt', 'w') #Uue faili loomine märgendatud väljundi talletamiseks.

# Iga lause iga sõna kohta kirjutatakse faili sõna järjekord lauses, sõna tekstis esinev kuju,
# sõna algvorm ja sõnaliik nii rahvusvahelise kui ka eestipärase märgendiga. Eraldajaks tabulaatorid.
valjund.write('Id\tSona\tLemma\tUpos\tXpos\n')
for sent in doc.sentences:
	for word in sent.words:
		margendid = '\n'.join([f'{word.id}\t{word.text}\t{word.lemma}\t{word.upos}\t{word.xpos}'])
		valjund.write(margendid+'\n') #NB! Taandrida - iga sõna märgendid kirjutatakse faili rea kaupa.
valjund.close()