> tekstid <- read_csv("http://www.tlu.ee/~kais/Kvant_digihum/keeletasemed200.csv") Parsed with column specification: cols( kood = col_character(), eksam = col_character(), keeletase = col_character(), sonad = col_double(), spikkus = col_double(), lpikkus = col_double(), lemmad = col_double(), yld_kaanded = col_double() ) > arrange(tekstid, sonad) # A tibble: 220 x 8 kood eksam keeletase sonad spikkus lpikkus lemmad yld_kaanded 1 A2III_001-007 2018_III A2 28 4.89 5.6 22 6 2 A2II_001-010 2018_II A2 31 5.10 5.17 26 7 3 A2III_003-031 2018_III A2 32 4.5 5.33 23 5 4 A2I_001-071 2018_I A2 33 5.46 4.71 22 7 5 A2III_001-006 2018_III A2 34 4.35 4.86 28 4 6 A2IV_002-007 2018_IV A2 34 6.12 6.8 26 6 7 A2II_002-066 2018_II A2 34 4.56 5.67 27 5 8 A2III_002-033 2018_III A2 34 4.44 6.8 24 6 9 A2IV_003-031 2018_IV A2 34 5.74 5.67 26 6 10 A2III_003-002 2018_III A2 35 4.63 3.5 27 5 # … with 210 more rows > arrange(tekstid, desc(sonad)) # A tibble: 220 x 8 kood eksam keeletase sonad spikkus lpikkus lemmad yld_kaanded 1 C1_2017III_001-002 2017_III C1 351 6.02 13 199 11 2 C1_2017IV_001-028 2017_IV C1 345 5.65 14.4 157 10 3 C1_2017I_001-039 2017_I C1 312 6.31 14.9 193 10 4 C1_2018I_001-038 2018_I C1 309 5.82 16.3 161 11 5 C1_2017II_001-068 2017_II C1 297 5.38 12.9 154 12 6 B2IV_002-031 2018_IV B2 290 5.38 20.7 123 10 7 C1_2017III_001-007 2017_III C1 289 6.69 15.2 172 9 8 C1_2017II_001-129 2017_II C1 285 6.45 14.2 159 13 9 C1_2018IV_002-036 2018_IV C1 284 6.34 14.9 158 12 10 C1_2018III_003-052 2018_III C1 283 5.93 15.7 150 11 # … with 210 more rows > tekstid %>% filter(keeletase=="A2") %>% arrange(desc(yld_kaanded)) # A tibble: 60 x 8 kood eksam keeletase sonad spikkus lpikkus lemmad yld_kaanded 1 A2I_001-027 2018_I A2 75 4.77 6.25 45 10 2 A2II_004-050 2018_II A2 54 4.35 6.75 39 9 3 A2I_001-023 2018_I A2 38 5.74 6.33 26 8 4 A2II_002-026 2018_II A2 43 5 6.14 33 8 5 A2I_001-065 2018_I A2 47 5.11 5.22 41 8 6 A2II_004-051 2018_II A2 58 4.28 9.67 38 8 7 A2III_003-012 2018_III A2 56 4.46 8 46 8 8 A2I_001-015 2018_I A2 72 4.19 6 43 7 9 A2I_001-025 2018_I A2 61 5.46 7.62 43 7 10 A2II_001-010 2018_II A2 31 5.10 5.17 26 7 # … with 50 more rows > tekstid %>% group_by(keeletase) %>% summarise(keskpikkus=mean(sonad), minpikkus=min(sonad), makspikkus=max(sonad)) # A tibble: 4 x 4 keeletase keskpikkus minpikkus makspikkus 1 A2 46.7 28 87 2 B1 107. 72 180 3 B2 166. 111 290 4 C1 258. 201 351 > tekstid %>% group_by(keeletase) %>% summarise(kesklause=mean(lpikkus), minlause=min(lpikkus), makslause=max(lpikkus)) # A tibble: 4 x 4 keeletase kesklause minlause makslause 1 A2 5.78 3.5 9.67 2 B1 8.05 4.54 14 3 B2 11.5 7.12 20.7 4 C1 13.3 9.54 18.9 > tekstid %>% group_by(keeletase) %>% summarise_if(is.numeric, c(kesk=mean, med=median, min=min, maks=max)) # A tibble: 4 x 21 keeletase sonad_kesk spikkus_kesk lpikkus_kesk lemmad_kesk yld_kaanded_kesk sonad_med 1 A2 46.7 4.88 5.78 33.1 6.35 44 2 B1 107. 5.12 8.05 61.7 8.18 106. 3 B2 166. 5.29 11.5 94.0 9.08 160. 4 C1 258. 6.28 13.3 147. 10.8 254 # … with 14 more variables: spikkus_med , lpikkus_med , lemmad_med , # yld_kaanded_med , sonad_min , spikkus_min , lpikkus_min , # lemmad_min , yld_kaanded_min , sonad_maks , spikkus_maks , # lpikkus_maks , lemmad_maks , yld_kaanded_maks > View(tekstid %>% group_by(keeletase) %>% summarise_if(is.numeric, c(kesk=mean, med=median, min=min, maks=max))) > tekstid %>% filter(keeletase=="B1") %>% group_by(eksam) %>% summarise_if(is.numeric, c(keskm=mean)) # A tibble: 4 x 6 eksam sonad_keskm spikkus_keskm lpikkus_keskm lemmad_keskm yld_kaanded_keskm 1 2018_I 123. 4.65 9.17 64.7 8.67 2 2018_II 103. 4.82 6.91 62.9 7.8 3 2018_III 99.2 5.57 7.51 59.5 8.6 4 2018_IV 105. 5.43 8.62 59.7 7.67