Vähemalt 5tähelise keskmise sõnapikkusega tekstide osakaal keeleoskustasemeti:

pikadsonad <- tekstid %>% filter(spikkus>=5) %>% group_by(keeletase) %>% summarise(pikk_kogus=n())
print(pikadsonad)
## # A tibble: 4 x 2
##   keeletase pikk_kogus
##       <dbl>      <int>
## 1         1         27
## 2         2         44
## 3         3         62
## 4         4         64

Vähem kui 5tähelise keskmise sõnapikkusega tekstide osakaal keeleoskustasemeti:

lyhisonad <- tekstid %>% filter(spikkus<5) %>% group_by(keeletase) %>% summarise(lyhi_kogus=n())
print(lyhisonad)
## # A tibble: 4 x 2
##   keeletase lyhi_kogus
##       <dbl>      <int>
## 1         1         53
## 2         2         36
## 3         3         13
## 4         4          1

Koondtabel ja selle põhjal hii-ruut test leidmaks, kas tekste, kus keskmine sõnapikkus on vähemalt 5 tähte, esineb sarnasel määral tekstidega, kus sõnapikkus on alla 5 tähe? Tõenäosus, et selliste tekstide erinev sagedus on juhuslik, on väga väike: 0.00000000000000022.

koondsonad <- inner_join(pikadsonad, lyhisonad, by = NULL, copy = FALSE)
## Joining, by = "keeletase"
print(koondsonad)
## # A tibble: 4 x 3
##   keeletase pikk_kogus lyhi_kogus
##       <dbl>      <int>      <int>
## 1         1         27         53
## 2         2         44         36
## 3         3         62         13
## 4         4         64          1
koondsonad %>% select(-keeletase) %>% chisq.test()
## 
##  Pearson's Chi-squared test
## 
## data:  .
## X-squared = 80.805, df = 3, p-value < 2.2e-16

Leian keeleoskustasemeti tekstid, kus on esindatud 8 käänet (B1-taseme keskmine) ja 9 käänet (B2-taseme keskmine):

kaanded <- tekstid %>% filter(yld_kaanded %in% c(8, 9)) %>% group_by(keeletase, yld_kaanded) %>% 
  summarise(kogus=n()) %>% ungroup() %>% spread(yld_kaanded, kogus)
print(kaanded)
## # A tibble: 4 x 3
##   keeletase   `8`   `9`
##       <dbl> <int> <int>
## 1         1     5     2
## 2         2    18    26
## 3         3    20    26
## 4         4    NA    12

Hii-ruut test B1- ja B2-taseme võrdluseks. Tekstide jaotumine on sarnane tõenäosusega 97,35%.

kaanded %>% filter(keeletase %in% c(2, 3)) %>% select(-keeletase) %>% chisq.test()
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  .
## X-squared = 0.0011027, df = 1, p-value = 0.9735

Kui vastava käänete arvuga tekstid puuduvad, siis määran loenduri väärtuseks 0. Võrdlen hii-ruut testi abil 8 ja 9 erineva käändevormiga tekstide osakaalusid kõigil neljal tasemel. Tõenäosus, et erinev sagedus on juhuslik, on vaid 1,09%.

kaanded2 <- tekstid %>% filter(yld_kaanded %in% c(8, 9)) %>% group_by(keeletase, yld_kaanded) %>% 
  summarise(kogus=n()) %>% ungroup() %>% spread(yld_kaanded, kogus, fill=0)
print(kaanded2)
## # A tibble: 4 x 3
##   keeletase   `8`   `9`
##       <dbl> <dbl> <dbl>
## 1         1     5     2
## 2         2    18    26
## 3         3    20    26
## 4         4     0    12
kaanded2 %>% select(-keeletase) %>% chisq.test()
## Warning in chisq.test(.): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  .
## X-squared = 11.167, df = 3, p-value = 0.01086

Loendan tekste, kus on esindatud 8, 9 ja 11 käänet (C1-taseme keskmine), ja teen hii-ruut testi. Tõenäosus, et erinevus on juhuslik, on 0.000000006759.

kaanded3 <- tekstid %>% filter(yld_kaanded %in% c(8, 9, 11)) %>% group_by(keeletase, yld_kaanded) %>% 
  summarise(kogus=n()) %>% ungroup() %>% mutate(yld_kaanded=paste("k",yld_kaanded, sep="")) %>%
  spread(yld_kaanded, kogus, fill=0)
print(kaanded3)
## # A tibble: 4 x 4
##   keeletase   k11    k8    k9
##       <dbl> <dbl> <dbl> <dbl>
## 1         1     0     5     2
## 2         2     1    18    26
## 3         3     7    20    26
## 4         4    17     0    12
kaanded3 %>% select(-keeletase) %>% chisq.test()
## Warning in chisq.test(.): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  .
## X-squared = 49.213, df = 6, p-value = 6.759e-09

Vähemalt 130sõnaliste (keskmine pikkus) ja alla 130sõnaliste tekstide osakaal keeleoskustasemeti, jättes kõrvale A2-taseme:

pikadtekstid <- tekstid %>% filter(sonad>=130) %>% group_by(keeletase) %>% summarise(pikk_kogus=n())

lyhitekstid <- tekstid %>% filter(sonad<130 | keeletase %in% c(2, 3, 4)) %>% 
  group_by(keeletase) %>% summarise(lyhi_kogus=n())

Koondan tabelid ja teen hii-ruut testi. p väärtus on 0.00000002133 ehk tõenäosus, et tulemuste erinevus on juhuslik, on väga väike.

koondpikkused <- inner_join(pikadtekstid, lyhitekstid, by = NULL, copy = FALSE)
## Joining, by = "keeletase"
print(koondpikkused)
## # A tibble: 3 x 3
##   keeletase pikk_kogus lyhi_kogus
##       <dbl>      <int>      <int>
## 1         2         13         80
## 2         3         70         75
## 3         4         64         65
koondpikkused %>% select(-keeletase) %>% chisq.test()
## 
##  Pearson's Chi-squared test
## 
## data:  .
## X-squared = 35.326, df = 2, p-value = 2.133e-08