在R中使用Quanteda时,从文本语料库中删除非ASCII字符的最佳方法是什么?

时间:2016-07-04 10:48:55

标签: r nlp tm corpus quanteda

我迫切需要。我有一个语料库,我已经转换成一种共同的语言,但有些单词没有正确地转换成英语。因此,我的语料库有非ASCII字符,例如“(U + 00F8)”。

我正在使用Quanteda并使用此代码导入了我的文本:

 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")

我的语料库由166个文档组成。通过这种方式将文档导入R,对于我摆脱这些非ASCII字符的最佳方法是什么?

1 个答案:

答案 0 :(得分:4)

尝试:

texts(EUCorpus) <- iconv(texts(EUCorpus), from = "UTF-8", to = "ASCII", sub = "")

这会将编码转换为ASCII,将任何不可翻译的字符(不在0-127 ASCII范围内)替换为虚无。