使用R刮取Twitter数据导致阿拉伯语文本出现乱码

时间:2017-07-11 12:27:00

标签: r twitter arabic

我在macOS Sierra(10.12.5)上使用RStudio(3.3.1)来搜索某些Twitter用户的关注者的用户个人资料信息。

我的问题是,当用户的个人资料描述是阿拉伯语时,返回的文本会出现乱码。例如,此用户说明:

  

جزائرييسريدمالشهداءفيعروقهويطلبالعلمحتىيعلمالذين   كفرواأندينالإسلامهودينالحق,والحقأقول..

成为这个:

  

جزاØ|ريÙ'ٌيسريدÙ...ÙآØ'هداءØØØØرÙÙ,ÙÙ‡   ÙيطٓÙبأعÙÙ“Ù......ØتÙ'Ù‰ÙÙØÙÙÙÙÙ...أذينكÙرÙاأنÙ'   Ø¯ÙŠÙ†Ø§Ù“إسٔاÙ...Ù‡ÙدينÙآØÙ,ØŒÙأØÙ,Ù'ÙŽ   Ø£Ù,ÙÙÙ“..#Ø£††Ø'طعٔىØμÙØØ©

这特别成问题,因为我正在研究的项目主要关注Twitter的穆斯林用户,而且很多数据都是阿拉伯语。

我猜这是编码的问题,this answera similar question建议更新到RStudio 3.3.3但是当我尝试它没有任何区别时我遇到了兼容性方面的问题我的一些包裹。

任何帮助都将不胜感激。

1 个答案:

答案 0 :(得分:0)

我能用阿拉伯语文本制作这个Twitter词云,虽然我不会读阿拉伯语,所以谁知道它有多成功。Word cloud这部分基于:< / p>

# Get some tweets
trump_tweets <- userTimeline("RTarabic", n = 1000)

# Extract the text
trump_text <- iconv(trump_text, 'UTF-8', 'ASCII')
trump_text <- sapply(trump_tweets, function(x) x$getText())

我认为把它变成UTF-8是关键,但我承认我几乎不知道我在这里谈论的是什么。