我正在使用以下数据集:https://www.kaggle.com/crowdflower/twitter-user-gender-classification
我的目标是开发一个R
脚本来通过表情符号检测性别,但是它们处于一种奇怪的代码中,我无法在UNICODE
中进行转换,该代码允许链接其中一个表情符号字典。我尝试过iconv
,但是它转换为hilo格式,我不知道如何将其转换为unicode
。
我用数据集推文之一编写示例。
new <- iconv("Its a double capsule day _Ù÷ã_Ù÷ã 27 varieties of fruit and veg...in a capsule, simples _Ù÷ã_Ù÷ã #fruitandveg #juiceplus #health", from="utf-8", to="UNICODE", "byte")
[1] "Its a double capsule day _<d9><f7><e3>_<d9><f7><e3> 27 varieties of fruit and veg...in a capsule, simples _<d9><f7><e3>_<d9><f7><e3> #fruitandveg #juiceplus #health"
有帮助吗?
预先感谢