Windows上的R中的Unicode推特表情符号

时间:2018-06-26 13:48:34

标签: r twitter unicode sentiment-analysis emoticons

我正在对Twitter数据进行情感分析,并在推文中为表情符号使用Unicode编码而苦苦挣扎。问题是我无法识别图释。当我在控制台上打印带有表情符号(以Unicode编码,<U+653C>等格式)的文字时,得到的是中文符号,而不是推文中期望的表情符号。 通过“ validUTF8(x)”功能,我检查了文本是否正确地以UTF8编码,并返回TRUE,这表明文本确实是UTF8编码的。

加载到R中的推文示例(带有一些简单的数据清除)如下:

  

" <U+653C><U+3E64><U+613C><U+3E30><U+623C><U+3E63><U+653C><U+3E64><U+623C><U+3E37><U+613C><U+3E39><U+653C><U+3E64><U+613C><U+3E30><U+623C><U+3E63><U+653C><U+3E64><U+623C><U+3E37><U+623C><U+3E30> begint op de bank tijdens de laatste groepswedstrijd van denemarken uur den fra worldcup feyenoord "

这是此代码在R中的控制台中的显示方式:

[1] "攼㹤愼㸰戼㹣攼㹤戼㸷愼㸹攼㹤愼㸰戼㹣攼㹤戼㸷戼㸰   begint op de bank tijdens de laatste groepswedstrijd van denemarken        uur  den   fra   worldcup feyenoord "

,指向特定推文的链接为here。顺便说一句:我使用rtweets包和search_tweets函数将twitter数据加载到R中,并且正在Windows 10上运行。

我希望能够通过将Unicode与Unicode database进行匹配来识别表情符号,以便在情感分析中使用表情符号。有人可以帮我吗?

0 个答案:

没有答案