import nltk from estnltk import Text import urllib.request from collections import Counter A2 = Text(urllib.request.urlopen("http://www.tlu.ee/~kais/Digihum_tehnoloogiad/Nadal6/A2_2018_I.txt").read().decode("utf8").lower()).postags B1 = Text(urllib.request.urlopen("http://www.tlu.ee/~kais/Digihum_tehnoloogiad/Nadal6/B1_2018_I.txt").read().decode("utf8").lower()).postags B1 = B1[0: len(A2)] pikkus1 = 2 pikkus2 = 3 A2paarid = ["-".join(A2[arv:arv+pikkus1]) for arv in range(len(A2)-(pikkus1-1))] B1paarid = ["-".join(B1[arv:arv+pikkus1]) for arv in range(len(B1)-(pikkus1-1))] A2kolmikud = ["-".join(A2[arv:arv+pikkus2]) for arv in range(len(A2)-(pikkus2-1))] B1kolmikud = ["-".join(B1[arv:arv+pikkus2]) for arv in range(len(B1)-(pikkus2-1))] def tunnused(paar): return{'sõnaliigipaar': paar} def tunnused(kolmik): return{'sõnaliigikolmik': kolmik} andmed = [[tunnused(paar), 'A2'] for paar in A2paarid] andmed+= [[tunnused(paar), 'B1'] for paar in B1paarid] andmed+= [[tunnused(kolmik), 'A2'] for kolmik in A2kolmikud] andmed+= [[tunnused(kolmik), 'B1'] for kolmik in B1kolmikud] mudel = nltk.NaiveBayesClassifier.train(andmed) print("Model Accuracy") print(nltk.classify.accuracy(mudel, andmed)) mudel.show_most_informative_features(30)