文字twitter中的清洁口音

时间:2016-04-29 06:38:46

标签: r diacritics tm

我正在使用西班牙语twitts进行文本挖掘,我的问题是我有相同的单词,但有不同的方式(带重音和没有重音),例如:accion,acción。

我尝试使用编码:unicode“UTF-8”,但不行。 我的图书馆 库(stringi) 库(TWITTER) 库(TM) 库(wordcloud) 库(RColorBrewer)

1 个答案:

答案 0 :(得分:0)

您没有明确说明您要对访问过的推文做什么(保存在文本文件中,或作为数据框等)。如果您使用UTF-8编码,它将基本保留字母,因为它是。

 con <- file("C:/Dir1/sub_dir1/output/output.txt", encoding = "UTF-8")
 write(df, file = con)

但是,如果您尝试将此重音字符更改为正常等效字符 最简单的方法是使用iconv

iconv( "acción", to='ASCII//TRANSLIT')
>[1] "accion"