在R中创建带有西班牙文本的语料库

时间:2014-05-05 23:59:22

标签: r encoding text-mining word-cloud

尝试在西班牙语文本上进行一些文本挖掘和wordcloud可视化。我实际上有9个不同的.txt文件,但只会发布一个用于复制。

  

“Nos lossentan del pueblo delaNación,ARGENTINA,reunidos en   Congreso General Constituyente por voluntadyeleccióndelas   provincias que la componen,en cumplimiento de pactos preexistentes,   国家联合国宪法委员会,afianzar la justicia,   巩固拉巴斯内部,证明者防守公司,促销者   bienestar general,y asegurar los beneficios de la libertad,para   nosotros,para nuestra posteridad,y para todos los hombres del mundo   que quieran habitar en el suelo argentino:invocandolaprotecciónde   Dios,fuente detodarazónyjusticia:ordenamos,decretamos y   establecemosestaConstitución,paralaNación阿根廷。“

该文件保存为.txt文件。以下是我尝试使用正确的编码生成term-document-matrix的天真尝试。当我检查它时,我没有得到原始文件中的文本(例如,“constitución”变为“constitucif3n”)。我是文本挖掘的新手,并且知道解决方案可能涉及各种各样的共同依赖调整,我想我会问这里而不是搜索4个小时。提前谢谢。

#Generate Term-Document-Matrix

#Convert Text to Corpus and Clean
cleanCorpus <- function(corpus) {
  corpus.tmp <- tm_map(corpus, removePunctuation)
  corpus.tmp <- tm_map(corpus.tmp, stripWhitespace)
  corpus.tmp <- tm_map(corpus.tmp, tolower)
  corpus.tmp <- tm_map(corpus.tmp, removeWords, stopwords("spanish"))
  return(corpus.tmp)
}

generateTDM <- function(path) {
  cor.tmp <- Corpus(DirSource(directory=path, encoding="ISO8859-1"))
  cor.cl <- cleanCorpus(cor.tmp)
  tdm.tmp <- TermDocumentMatrix(cor.cl)
  tdm.s <- removeSparseTerms(tdm.tmp, 0.7)
}

tdm <- generateTDM(pathname)
tdm.m <- as.matrix(tdm)

1 个答案:

答案 0 :(得分:1)

答案:确保原始文本文件是UTF-8编码的。为此,我不得不在Mac上的TextEdit中更改我的保存首选项。这使一切都无缝地工作。