我正在使用C ++中的twitter情绪分析工具。到目前为止,我从Twitter获取推文并对其进行处理(小写,删除RT,删除#和URL)。
下一步是删除表情符号和所有这些特殊字符。怎么做到这一点?在你跳我之前,我已经看过其他类似的问题,但没有一个涉及C ++。主要是R,Python和PHP。
我正在考虑使用正则表达式但是我无法让它工作。我尝试删除主题标签和URL,但我放弃了。我最终使用普通字符串:find和find_first_of。
是否有任何库或方法可以摆脱那些表情符号和特殊内容?
由于
答案 0 :(得分:2)
我建议使用正则表达式。现在你有两个选项,你可以只提取你感兴趣的字符(如果你正在使用英文推文这可能是AZ,az,数字和一些符号,这取决于你的需要),或者你可以选择无效字符(表情符号)并用空字符串替换它们。
我只有Qt的RegularExpression引擎的经验,但c ++标准库有正则表达式支持(虽然我不确定它对Unicode有多好),但ICU也提供了一个正则表达式库。
*我会提供更多链接,但我还没有足够的声誉:/