我已经尝试了很多事情,也许我是盲人,但是,我继续得到稀有的编码字符。我能做什么?代码中的错误在哪里?或设置中?
第一,这是我的会话信息:
[1] LC_COLLATE=Spanish_Mexico.1252 LC_CTYPE=Spanish_Mexico.1252
[3] LC_MONETARY=Spanish_Mexico.1252 LC_NUMERIC=C
[5] LC_TIME=Spanish_Mexico.1252
#########
my_data <- read_excel("discursosData.xlsx")
text <- my_data$`Discurso Apertura`[1]
corpus <- Corpus(VectorSource(text))
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("spanish"))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, stripWhitespace)
termDocMat <- TermDocumentMatrix(corpus)
m <- as.matrix(termDocMat)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d,10)
#
我得到:
word freq
vamos vamos 18
xico xico 17
quiero quiero 10
campaà campaà 9
venes venes 9
gobierno gobierno 8
manera manera 8
amigo amigo 7
horas horas 7
soà soà 7
例如,“campaÔ应为“campaña”,“ xico”应为“méxico”。似乎是系统找到重音符号或“ñ”将其更改为罕见字符时。
怎么了?请帮我。谢谢