import pandas as pd
from scipy.stats import f_oneway

pd.set_option('display.max_columns', None) #vajalik säte, et kuvada tulpadena kõigi tunnuste väärtused

andmestik = pd.read_csv('andmestik.txt', sep = ',')

#Kõigi tunnuste aritmeetilised keskmised autori kaupa
keskmised = andmestik.groupby('autor').mean()
print(keskmised)

#Kõigi tunnuste mediaanväärtused autori kaupa
mediaanid = andmestik.groupby('autor').median()
print(mediaanid)

#Kõigi tunnuste miinimumväärtused autori kaupa
miinimumid = andmestik.groupby('autor').min()
print(miinimumid)

#Kõigi tunnuste maksimumväärtused autori kaupa
maksimumid = andmestik.groupby('autor').max()
print(maksimumid)

#Dispersioonanalüüsi ehk ANOVA näide keskmise sõnapikkuse puhul

viiding = andmestik[andmestik.autor == 'V'].keskm_sonapikkus.tolist()
ristikivi = andmestik[andmestik.autor == 'R'].keskm_sonapikkus.tolist()
talvik = andmestik[andmestik.autor == 'T'].keskm_sonapikkus.tolist()
kareva = andmestik[andmestik.autor == 'K'].keskm_sonapikkus.tolist()

anova = f_oneway(viiding, ristikivi, talvik, kareva)
print(anova)

#Kahe autori eristamiseks saab kasutada t-testi, vt https://stackoverflow.com/questions/13404468/t-test-in-pandas