如何处理R中的utf-8字符

时间:2018-03-15 03:02:31

标签: r nlp utf

我正在尝试分析一些推文并且是文本挖掘的新手。经过基本的预处理后,我的输出是:

> `head(tweet_corpus[[1]]$content)`
[1] "user father dysfunct selfish drag kid dysfunct run"                                          
[2] "user user thank lyft credit use caus offer wheelchair van pdx disapoint getthank"            
[3] "bihday majesti"                                                                              
[4] "model love u take u time urã°âÿâ“â± ã°âÿâ˜â™ã°âÿâ˜âžã°âÿâ‘â„ã°âÿâ‘â…ã°âÿâ’â¦ã°âÿâ’â¦ã°âÿâ’â¦"
[5] "factsguid societi now motiv"                                                                 
[6] "huge fan fare big talk leav chao pay disput get allshowandnogo"   

注意到这些字符:

> ã°âÿâ“â± ã°âÿâ˜â™ã°âÿâ˜âžã°âÿâ‘â„ã°âÿâ‘â…ã°âÿâ’â¦ã°âÿâ’â¦ã°âÿâ’â¦

根据我读到的,博客这些是UTF-8。我尝试使用以下方式处理它:

raw_tweets$tweet <- iconv(raw_tweets$tweet, "ASCII", "UTF-8", sub="")

但得到了这个例外:

Error in iconv(raw_tweets$tweet, "ASCII", "UTF-8", sub = "") : 
  embedded nul in string: '#model   i love u take with u all the time in urC\003B0C\002E8C\002b\0\034C\002B1!!! C\003B0C\002E8C\002K\034C\002b\004"C\003B0C\002E8C\002K\034C\002E=C\003B0C\002E8C\002b\0\030C\002b\0\036C\003B0C\002E8C\002b\0\030C\002b\0&C\003B0C\002E8C\002b\0\031C\002B&C\003B0C\002E8C\002b\0\031C\002B&C\003B0C\002E8C\002b\0\031C\002B&'

这些代码是什么?如何处理这些代码?是否有任何经验法则来处理这种非结构化文本?

1 个答案:

答案 0 :(得分:0)

我的推文中有一些非ASCII字符。 使用此代码

tweet_corpus= tm_map(tweet_corpus, function(x) iconv(x, "latin1", "ASCII", sub=""))

我能够解决这个问题。