标签: twitter nlp data-mining
我想对推文进行一些挖掘。是否有更具体的停止单词列表,如删除“lol”和其他Twitter笑脸?
答案 0 :(得分:4)
我猜你应该将普通的停用词列表(例如this one或that)与特定的首字母缩略词词典合并,例如this slang dictionary,或that,或that或that(最后一个似乎是解析最简单的,请参阅评论here)。
答案 1 :(得分:0)
我不知道特定于Twitter的停用词列表,但通常的做法是简单地从分析中删除n个最常用的词,例如,n可以是100。根据您的想法,表情可能实际上提供了非常相关的信息。