Vähemalt 5tähelise keskmise sõnapikkusega tekstide osakaal keeleoskustasemeti:
pikadsonad <- tekstid %>% filter(spikkus>=5) %>% group_by(keeletase) %>% summarise(pikk_kogus=n())
print(pikadsonad)
## # A tibble: 4 x 2
## keeletase pikk_kogus
## <dbl> <int>
## 1 1 27
## 2 2 44
## 3 3 62
## 4 4 64
Vähem kui 5tähelise keskmise sõnapikkusega tekstide osakaal keeleoskustasemeti:
lyhisonad <- tekstid %>% filter(spikkus<5) %>% group_by(keeletase) %>% summarise(lyhi_kogus=n())
print(lyhisonad)
## # A tibble: 4 x 2
## keeletase lyhi_kogus
## <dbl> <int>
## 1 1 53
## 2 2 36
## 3 3 13
## 4 4 1
Koondtabel ja selle põhjal hii-ruut test leidmaks, kas tekste, kus keskmine sõnapikkus on vähemalt 5 tähte, esineb sarnasel määral tekstidega, kus sõnapikkus on alla 5 tähe? Tõenäosus, et selliste tekstide erinev sagedus on juhuslik, on väga väike: 0.00000000000000022.
koondsonad <- inner_join(pikadsonad, lyhisonad, by = NULL, copy = FALSE)
## Joining, by = "keeletase"
print(koondsonad)
## # A tibble: 4 x 3
## keeletase pikk_kogus lyhi_kogus
## <dbl> <int> <int>
## 1 1 27 53
## 2 2 44 36
## 3 3 62 13
## 4 4 64 1
koondsonad %>% select(-keeletase) %>% chisq.test()
##
## Pearson's Chi-squared test
##
## data: .
## X-squared = 80.805, df = 3, p-value < 2.2e-16
Leian keeleoskustasemeti tekstid, kus on esindatud 8 käänet (B1-taseme keskmine) ja 9 käänet (B2-taseme keskmine):
kaanded <- tekstid %>% filter(yld_kaanded %in% c(8, 9)) %>% group_by(keeletase, yld_kaanded) %>%
summarise(kogus=n()) %>% ungroup() %>% spread(yld_kaanded, kogus)
print(kaanded)
## # A tibble: 4 x 3
## keeletase `8` `9`
## <dbl> <int> <int>
## 1 1 5 2
## 2 2 18 26
## 3 3 20 26
## 4 4 NA 12
Hii-ruut test B1- ja B2-taseme võrdluseks. Tekstide jaotumine on sarnane tõenäosusega 97,35%.
kaanded %>% filter(keeletase %in% c(2, 3)) %>% select(-keeletase) %>% chisq.test()
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: .
## X-squared = 0.0011027, df = 1, p-value = 0.9735
Kui vastava käänete arvuga tekstid puuduvad, siis määran loenduri väärtuseks 0. Võrdlen hii-ruut testi abil 8 ja 9 erineva käändevormiga tekstide osakaalusid kõigil neljal tasemel. Tõenäosus, et erinev sagedus on juhuslik, on vaid 1,09%.
kaanded2 <- tekstid %>% filter(yld_kaanded %in% c(8, 9)) %>% group_by(keeletase, yld_kaanded) %>%
summarise(kogus=n()) %>% ungroup() %>% spread(yld_kaanded, kogus, fill=0)
print(kaanded2)
## # A tibble: 4 x 3
## keeletase `8` `9`
## <dbl> <dbl> <dbl>
## 1 1 5 2
## 2 2 18 26
## 3 3 20 26
## 4 4 0 12
kaanded2 %>% select(-keeletase) %>% chisq.test()
## Warning in chisq.test(.): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: .
## X-squared = 11.167, df = 3, p-value = 0.01086
Loendan tekste, kus on esindatud 8, 9 ja 11 käänet (C1-taseme keskmine), ja teen hii-ruut testi. Tõenäosus, et erinevus on juhuslik, on 0.000000006759.
kaanded3 <- tekstid %>% filter(yld_kaanded %in% c(8, 9, 11)) %>% group_by(keeletase, yld_kaanded) %>%
summarise(kogus=n()) %>% ungroup() %>% mutate(yld_kaanded=paste("k",yld_kaanded, sep="")) %>%
spread(yld_kaanded, kogus, fill=0)
print(kaanded3)
## # A tibble: 4 x 4
## keeletase k11 k8 k9
## <dbl> <dbl> <dbl> <dbl>
## 1 1 0 5 2
## 2 2 1 18 26
## 3 3 7 20 26
## 4 4 17 0 12
kaanded3 %>% select(-keeletase) %>% chisq.test()
## Warning in chisq.test(.): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: .
## X-squared = 49.213, df = 6, p-value = 6.759e-09
Vähemalt 130sõnaliste (keskmine pikkus) ja alla 130sõnaliste tekstide osakaal keeleoskustasemeti, jättes kõrvale A2-taseme:
pikadtekstid <- tekstid %>% filter(sonad>=130) %>% group_by(keeletase) %>% summarise(pikk_kogus=n())
lyhitekstid <- tekstid %>% filter(sonad<130 | keeletase %in% c(2, 3, 4)) %>%
group_by(keeletase) %>% summarise(lyhi_kogus=n())
Koondan tabelid ja teen hii-ruut testi. p väärtus on 0.00000002133 ehk tõenäosus, et tulemuste erinevus on juhuslik, on väga väike.
koondpikkused <- inner_join(pikadtekstid, lyhitekstid, by = NULL, copy = FALSE)
## Joining, by = "keeletase"
print(koondpikkused)
## # A tibble: 3 x 3
## keeletase pikk_kogus lyhi_kogus
## <dbl> <int> <int>
## 1 2 13 80
## 2 3 70 75
## 3 4 64 65
koondpikkused %>% select(-keeletase) %>% chisq.test()
##
## Pearson's Chi-squared test
##
## data: .
## X-squared = 35.326, df = 2, p-value = 2.133e-08