如何在R中使用TermDocumentMatrix作为波斯文本?

时间:2017-06-14 08:59:16

标签: r persian term-document-matrix

我想在文档中查看术语频率,我的文档包含波斯文本。我用R如下:

keycorpus <- Corpus(DirSource("E:\\Sample\\farsi texts"))
tm.matrix <- TermDocumentMatrix(keycorpus)
View(as.matrix(tm.matrix))

虽然这段代码适用于英文文本,但不幸的是它不适用于波斯语文本。我怎么能这样做?

1 个答案:

答案 0 :(得分:1)

假设您有一个名为1.txt的文本文件 然后:

 Sys.setlocale(locale = "Persian",category = "LC_ALL")
 setwd("E:\\Sample\\farsi_texts")
 text<-readLines("1.txt",encoding = "windows-1256")
 keycorpus <- Corpus(VectorSource(text))
 tm.matrix <- TermDocumentMatrix(keycorpus)
 View(as.matrix(tm.matrix))

它显示每行中的每个单词重复 您可以使用此代码汇总:

tm.iteration<-as.data.frame(apply(tm.matrix,1 ,sum)) View(as.matrix(tm.iteration))