TermDocumentMatrix错误的稀有字符(西班牙语)

时间:2018-11-16 02:21:18

标签: text data-mining

我已经尝试了很多事情,也许我是盲人,但是,我继续得到稀有的编码字符。我能做什么?代码中的错误在哪里?或设置中?

第一,这是我的会话信息:

[1] LC_COLLATE=Spanish_Mexico.1252  LC_CTYPE=Spanish_Mexico.1252   
[3] LC_MONETARY=Spanish_Mexico.1252 LC_NUMERIC=C                   
    [5] LC_TIME=Spanish_Mexico.1252



#########
my_data <- read_excel("discursosData.xlsx")
text <- my_data$`Discurso Apertura`[1]
corpus <- Corpus(VectorSource(text))
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("spanish"))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, stripWhitespace)
termDocMat <- TermDocumentMatrix(corpus)
m <- as.matrix(termDocMat)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d,10)

我得到:

word freq
vamos       vamos   18
xico         xico   17
quiero     quiero   10
campaà    campaà   9
venes       venes    9
gobierno gobierno    8
manera     manera    8
amigo       amigo    7
horas       horas    7
soà          soà   7

例如,“campaÔ应为“campaña”,“ xico”应为“méxico”。似乎是系统找到重音符号或“ñ”将其更改为罕见字符时。

怎么了?请帮我。谢谢

0 个答案:

没有答案