我尝试将词频转换为另一种语言
df <- data.frame(freetext = c("Εδώ και αρκετό καιρό που συνεχίζουν","και τώρα που έγιναν"))
library(tm)
docs <- Corpus(VectorSource(df$freetext))
dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 3)
但是我在控制台中看到的结果是:
word freq
\xea\xe1\xe9 <ea><e1><e9> 2
\xf0\xef\xf5 <f0><ef><f5> 2
\xe1\xf1\xea\xe5\xf4\xfc <e1><f1><ea><e5><f4><fc> 1
如何修复编码?
评论更新:
tibble::tibble(words = names(v), freq=v)
# A tibble: 8 x 2
words freq
<chr> <dbl>
1 "\xea\xe1\xe9" 2
2 "\xf0\xef\xf5" 2
3 "\xe1\xf1\xea\xe5\xf4\xfc" 1
4 "\xe5\xe4\xfe" 1
5 "\xea\xe1\xe9\xf1\xfc" 1
6 "\xf3\xf5\xed\xe5\xf7\xdf\xe6\xef\xf5\xed" 1
7 "\xdd\xe3\xe9\xed\xe1\xed" 1
8 "\xf4\xfe\xf1\xe1" 1