library(tidyverse) # Funktsioon tähtede jm sümbolite sageduste leidmiseks tahtedeSagedused <- function(failinimi){ tekst <- read_file(failinimi) vastus <- tibble(taht=str_split(str_to_lower(tekst), "")[[1]]) %>% group_by(taht) %>% summarise(kogus=n()) return(vastus) } kataloog = "/Users/kais/Desktop/corpus/" failinimed=c("A2I.txt", "A2II.txt", "A2III.txt", "A2IV.txt", "B1I.txt", "B1II.txt", "B1III.txt", "B1IV.txt", "B2I.txt", "B2II.txt", "B2III.txt", "B2IV.txt", "C1I.txt", "C1II.txt", "C1III.txt", "C1IV.txt", "AJA_erruudised.txt", "AJA_errsport.txt", "AJA_errmenu.txt", "ILU_korboja.txt", "ILU_tasuja.txt", "ILU_liivema.txt", "R_keskpaevatund.txt", "R_labor.txt", "R_paevakaja.txt") # Kõigi tekstide sümbolisageduste liitmine üheks tabeliks koos <- tahtedeSagedused(paste(kataloog, failinimed[1], sep="")) colnames(koos) <- c("taht", failinimed[1]) for (failinimi in failinimed[2:length(failinimed)]){ tabel <- tahtedeSagedused(paste(kataloog, failinimi, sep="")) colnames(tabel) <- c("taht", failinimi) koos <- koos %>% full_join(tabel, by="taht") } koos <- koos %>% replace(., is.na(.), 0) print(koos %>% arrange(taht), n=64) # Mittetäheliste ja -numbriliste sümbolite väljajätmine koos <- koos %>% arrange(taht) koos <- koos[29:66, ] # Tunnuse "taht" väärtuste teisendamine reanimetusteks ja tulbasummade leidmine koos <- column_to_rownames(koos, var = "taht") koos["kokku" ,] <- colSums(koos) print(tail(koos)) # Tabeli ümberpööramine koos <- as.data.frame(t(koos)) print(head(koos)) # Absoluutarvuliste tunnuste muutmine osakaaludeks koos <- koos %>% {./.$kokku} %>% round(3) View(koos)