import pandas as pd from scipy.stats import f_oneway pd.set_option('display.max_columns', None) #vajalik säte, et kuvada tulpadena kõigi tunnuste väärtused andmestik = pd.read_csv('andmestik.txt', sep = ',') #Kõigi tunnuste aritmeetilised keskmised autori kaupa keskmised = andmestik.groupby('autor').mean() print(keskmised) #Kõigi tunnuste mediaanväärtused autori kaupa mediaanid = andmestik.groupby('autor').median() print(mediaanid) #Kõigi tunnuste miinimumväärtused autori kaupa miinimumid = andmestik.groupby('autor').min() print(miinimumid) #Kõigi tunnuste maksimumväärtused autori kaupa maksimumid = andmestik.groupby('autor').max() print(maksimumid) #Dispersioonanalüüsi ehk ANOVA näide keskmise sõnapikkuse puhul viiding = andmestik[andmestik.autor == 'V'].keskm_sonapikkus.tolist() ristikivi = andmestik[andmestik.autor == 'R'].keskm_sonapikkus.tolist() talvik = andmestik[andmestik.autor == 'T'].keskm_sonapikkus.tolist() kareva = andmestik[andmestik.autor == 'K'].keskm_sonapikkus.tolist() anova = f_oneway(viiding, ristikivi, talvik, kareva) print(anova) #Kahe autori eristamiseks saab kasutada t-testi, vt https://stackoverflow.com/questions/13404468/t-test-in-pandas