正确接收其他语言频率词的结果

时间:2019-01-14 12:03:40

标签: r tm

我尝试将词频转换为另一种语言

 df <- data.frame(freetext = c("Εδώ και αρκετό καιρό που συνεχίζουν","και τώρα που έγιναν"))

library(tm)

docs <- Corpus(VectorSource(df$freetext))
dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 3)

但是我在控制台中看到的结果是:

word freq
\xea\xe1\xe9                                                         <ea><e1><e9>    2
\xf0\xef\xf5                                                         <f0><ef><f5>    2
\xe1\xf1\xea\xe5\xf4\xfc                                 <e1><f1><ea><e5><f4><fc>    1

如何修复编码?

评论更新:

tibble::tibble(words = names(v), freq=v)
# A tibble: 8 x 2
  words                                       freq
  <chr>                                      <dbl>
1 "\xea\xe1\xe9"                                 2
2 "\xf0\xef\xf5"                                 2
3 "\xe1\xf1\xea\xe5\xf4\xfc"                     1
4 "\xe5\xe4\xfe"                                 1
5 "\xea\xe1\xe9\xf1\xfc"                         1
6 "\xf3\xf5\xed\xe5\xf7\xdf\xe6\xef\xf5\xed"     1
7 "\xdd\xe3\xe9\xed\xe1\xed"                     1
8 "\xf4\xfe\xf1\xe1"                             1

0 个答案:

没有答案