Question

我正在尝试分析一些推文并且是文本挖掘的新手。经过基本的预处理后，我的输出是：

> `head(tweet_corpus[[1]]$content)`
[1] "user father dysfunct selfish drag kid dysfunct run"                                          
[2] "user user thank lyft credit use caus offer wheelchair van pdx disapoint getthank"            
[3] "bihday majesti"                                                                              
[4] "model love u take u time urã°âÿâ“â± ã°âÿâ˜â™ã°âÿâ˜âžã°âÿâ‘â„ã°âÿâ‘â…ã°âÿâ’â¦ã°âÿâ’â¦ã°âÿâ’â¦"
[5] "factsguid societi now motiv"                                                                 
[6] "huge fan fare big talk leav chao pay disput get allshowandnogo"

注意到这些字符：

> ã°âÿâ“â± ã°âÿâ˜â™ã°âÿâ˜âžã°âÿâ‘â„ã°âÿâ‘â…ã°âÿâ’â¦ã°âÿâ’â¦ã°âÿâ’â¦

根据我读到的，博客这些是UTF-8。我尝试使用以下方式处理它：

raw_tweets$tweet <- iconv(raw_tweets$tweet, "ASCII", "UTF-8", sub="")

但得到了这个例外：

Error in iconv(raw_tweets$tweet, "ASCII", "UTF-8", sub = "") : 
  embedded nul in string: '#model   i love u take with u all the time in urC\003B0C\002E8C\002b\0\034C\002B1!!! C\003B0C\002E8C\002K\034C\002b\004"C\003B0C\002E8C\002K\034C\002E=C\003B0C\002E8C\002b\0\030C\002b\0\036C\003B0C\002E8C\002b\0\030C\002b\0&C\003B0C\002E8C\002b\0\031C\002B&C\003B0C\002E8C\002b\0\031C\002B&C\003B0C\002E8C\002b\0\031C\002B&'

这些代码是什么？如何处理这些代码？是否有任何经验法则来处理这种非结构化文本？

Answer 1

我的推文中有一些非ASCII字符。使用此代码

tweet_corpus= tm_map(tweet_corpus, function(x) iconv(x, "latin1", "ASCII", sub=""))

我能够解决这个问题。

如何处理R中的utf-8字符

1 个答案: