Question

我已经尝试了很多事情，也许我是盲人，但是，我继续得到稀有的编码字符。我能做什么？代码中的错误在哪里？或设置中？

第一，这是我的会话信息：

[1] LC_COLLATE=Spanish_Mexico.1252  LC_CTYPE=Spanish_Mexico.1252   
[3] LC_MONETARY=Spanish_Mexico.1252 LC_NUMERIC=C                   
    [5] LC_TIME=Spanish_Mexico.1252



#########
my_data <- read_excel("discursosData.xlsx")
text <- my_data$`Discurso Apertura`[1]
corpus <- Corpus(VectorSource(text))
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("spanish"))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, stripWhitespace)
termDocMat <- TermDocumentMatrix(corpus)
m <- as.matrix(termDocMat)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d,10)

＃

我得到：

word freq
vamos       vamos   18
xico         xico   17
quiero     quiero   10
campaÃ     campaÃ    9
venes       venes    9
gobierno gobierno    8
manera     manera    8
amigo       amigo    7
horas       horas    7
soÃ           soÃ    7

例如，“campaÃ”应为“campaña”，“ xico”应为“méxico”。似乎是系统找到重音符号或“ñ”将其更改为罕见字符时。

怎么了？请帮我。谢谢

TermDocumentMatrix错误的稀有字符（西班牙语）

0 个答案: