Question

我正在对Twitter数据进行情感分析，并在推文中为表情符号使用Unicode编码而苦苦挣扎。问题是我无法识别图释。当我在控制台上打印带有表情符号（以Unicode编码，<U+653C>等格式）的文字时，得到的是中文符号，而不是推文中期望的表情符号。通过“ validUTF8（x）”功能，我检查了文本是否正确地以UTF8编码，并返回TRUE，这表明文本确实是UTF8编码的。

加载到R中的推文示例（带有一些简单的数据清除）如下：

" <U+653C><U+3E64><U+613C><U+3E30><U+623C><U+3E63><U+653C><U+3E64><U+623C><U+3E37><U+613C><U+3E39><U+653C><U+3E64><U+613C><U+3E30><U+623C><U+3E63><U+653C><U+3E64><U+623C><U+3E37><U+623C><U+3E30> begint op de bank tijdens de laatste groepswedstrijd van denemarken uur den fra worldcup feyenoord "

这是此代码在R中的控制台中的显示方式：

[1] "攼㹤愼㸰戼㹣攼㹤戼㸷愼㸹攼㹤愼㸰戼㹣攼㹤戼㸷戼㸰   begint op de bank tijdens de laatste groepswedstrijd van denemarken        uur  den   fra   worldcup feyenoord "

，指向特定推文的链接为here。顺便说一句：我使用rtweets包和search_tweets函数将twitter数据加载到R中，并且正在Windows 10上运行。

我希望能够通过将Unicode与Unicode database进行匹配来识别表情符号，以便在情感分析中使用表情符号。有人可以帮我吗？

Windows上的R中的Unicode推特表情符号

0 个答案: