尝试在西班牙语文本上进行一些文本挖掘和wordcloud可视化。我实际上有9个不同的.txt文件,但只会发布一个用于复制。
“Nos lossentan del pueblo delaNación,ARGENTINA,reunidos en Congreso General Constituyente por voluntadyeleccióndelas provincias que la componen,en cumplimiento de pactos preexistentes, 国家联合国宪法委员会,afianzar la justicia, 巩固拉巴斯内部,证明者防守公司,促销者 bienestar general,y asegurar los beneficios de la libertad,para nosotros,para nuestra posteridad,y para todos los hombres del mundo que quieran habitar en el suelo argentino:invocandolaprotecciónde Dios,fuente detodarazónyjusticia:ordenamos,decretamos y establecemosestaConstitución,paralaNación阿根廷。“
该文件保存为.txt文件。以下是我尝试使用正确的编码生成term-document-matrix的天真尝试。当我检查它时,我没有得到原始文件中的文本(例如,“constitución”变为“constitucif3n”)。我是文本挖掘的新手,并且知道解决方案可能涉及各种各样的共同依赖调整,我想我会问这里而不是搜索4个小时。提前谢谢。
#Generate Term-Document-Matrix
#Convert Text to Corpus and Clean
cleanCorpus <- function(corpus) {
corpus.tmp <- tm_map(corpus, removePunctuation)
corpus.tmp <- tm_map(corpus.tmp, stripWhitespace)
corpus.tmp <- tm_map(corpus.tmp, tolower)
corpus.tmp <- tm_map(corpus.tmp, removeWords, stopwords("spanish"))
return(corpus.tmp)
}
generateTDM <- function(path) {
cor.tmp <- Corpus(DirSource(directory=path, encoding="ISO8859-1"))
cor.cl <- cleanCorpus(cor.tmp)
tdm.tmp <- TermDocumentMatrix(cor.cl)
tdm.s <- removeSparseTerms(tdm.tmp, 0.7)
}
tdm <- generateTDM(pathname)
tdm.m <- as.matrix(tdm)
答案 0 :(得分:1)
答案:确保原始文本文件是UTF-8编码的。为此,我不得不在Mac上的TextEdit中更改我的保存首选项。这使一切都无缝地工作。