R脚本-如何在推文中检测表情符号代码

时间:2018-08-09 11:54:57

标签: r

我正在使用以下数据集:https://www.kaggle.com/crowdflower/twitter-user-gender-classification

我的目标是开发一个R脚本来通过表情符号检测性别,但是它们处于一种奇怪的代码中,我无法在UNICODE中进行转换,该代码允许链接其中一个表情符号字典。我尝试过iconv,但是它转换为hilo格式,我不知道如何将其转换为unicode

我用数据集推文之一编写示例。

new <- iconv("Its a double capsule day _Ù÷ã_Ù÷ã 27 varieties of fruit and veg...in a capsule, simples _Ù÷ã_Ù÷ã #fruitandveg #juiceplus #health", from="utf-8", to="UNICODE", "byte")

[1] "Its a double capsule day _<d9><f7><e3>_<d9><f7><e3> 27 varieties of fruit and veg...in a capsule, simples _<d9><f7><e3>_<d9><f7><e3> #fruitandveg #juiceplus #health"

有帮助吗?

预先感谢

0 个答案:

没有答案