我正在对Twitter数据进行情感分析,并在推文中为表情符号使用Unicode编码而苦苦挣扎。问题是我无法识别图释。当我在控制台上打印带有表情符号(以Unicode编码,<U+653C>
等格式)的文字时,得到的是中文符号,而不是推文中期望的表情符号。
通过“ validUTF8(x)”功能,我检查了文本是否正确地以UTF8编码,并返回TRUE,这表明文本确实是UTF8编码的。
加载到R中的推文示例(带有一些简单的数据清除)如下:
" <U+653C><U+3E64><U+613C><U+3E30><U+623C><U+3E63><U+653C><U+3E64><U+623C><U+3E37><U+613C><U+3E39><U+653C><U+3E64><U+613C><U+3E30><U+623C><U+3E63><U+653C><U+3E64><U+623C><U+3E37><U+623C><U+3E30> begint op de bank tijdens de laatste groepswedstrijd van denemarken uur den fra worldcup feyenoord "
这是此代码在R中的控制台中的显示方式:
[1] "攼㹤愼㸰戼㹣攼㹤戼㸷愼㸹攼㹤愼㸰戼㹣攼㹤戼㸷戼㸰 begint op de bank tijdens de laatste groepswedstrijd van denemarken uur den fra worldcup feyenoord "
,指向特定推文的链接为here。顺便说一句:我使用rtweets包和search_tweets
函数将twitter数据加载到R中,并且正在Windows 10上运行。
我希望能够通过将Unicode与Unicode database进行匹配来识别表情符号,以便在情感分析中使用表情符号。有人可以帮我吗?