我正在使用西班牙语twitts进行文本挖掘,我的问题是我有相同的单词,但有不同的方式(带重音和没有重音),例如:accion,acción。
我尝试使用编码:unicode“UTF-8”,但不行。 我的图书馆 库(stringi) 库(TWITTER) 库(TM) 库(wordcloud) 库(RColorBrewer)
答案 0 :(得分:0)
您没有明确说明您要对访问过的推文做什么(保存在文本文件中,或作为数据框等)。如果您使用UTF-8
编码,它将基本保留字母,因为它是。
con <- file("C:/Dir1/sub_dir1/output/output.txt", encoding = "UTF-8")
write(df, file = con)
但是,如果您尝试将此重音字符更改为正常等效字符
最简单的方法是使用iconv
iconv( "acción", to='ASCII//TRANSLIT')
>[1] "accion"