import pandas as pd
from scipy.stats import f_oneway

pd.set_option('display.max_columns', None) #vajalik säte, et kuvada tulpadena kõigi tunnuste väärtused

data = pd.read_csv('luuleandmestik.txt', sep = ',')

#Kõigi tunnuste aritmeetilised keskmised autori kaupa
meanValues = data.groupby('author').mean()
print(meanValues)

#Kõigi tunnuste mediaanväärtused autori kaupa
medianValues = data.groupby('author').median()
print(medianValues)

#Kõigi tunnuste miinimumväärtused autori kaupa
minValues = data.groupby('author').min()
print(minValues)

#Kõigi tunnuste maksimumväärtused autori kaupa
maxValues = data.groupby('author').max()
print(maxValues)

#Dispersioonanalüüsi ehk ANOVA näide keskmise sõnapikkuse puhul

viiding = data[data.author == 'Viiding'].meanWordLength.tolist()
ristikivi = data[data.author == 'Ristikivi'].meanWordLength.tolist()
talvik = data[data.author == 'Talvik'].meanWordLength.tolist()
kareva = data[data.author == 'Kareva'].meanWordLength.tolist()

anova = f_oneway(viiding, ristikivi, talvik, kareva)
print(anova)