情绪分析有助于我们评估推文的情绪,但是我们从api获得的许多推文可能真的不会被“归类”成某种情绪。
在运行任何类型的分类器之前,有没有人知道任何关于预处理推文的api /文献(例如删除#,删除@ name等)。
此外,如果我想确定在推文上运行情绪分析(比如电影评论)是否有意义,在我开始运行情绪分析器之前,我可以查看哪些主题/ api /文献?
答案 0 :(得分:0)
也许你应该阅读:
(然后在Python中,tweet = re.sub(old_pattern, new_pattern, tweet)
执行每个修改。)
答案 1 :(得分:0)
我正在使用TextBlob Library对我的数据集进行分类。
TextBlob 是用于处理文本数据的Python(2和3)库。它为潜入常见的自然语言处理(NLP)任务提供了一个简单的API,例如词性标注,名词短语提取,情感分析,分类,翻译等。
功能强> - 短语提取 - 语音标记 - 情感分析 - 分类(朴素贝叶斯,决策树) - 由Google Translate提供支持的语言翻译和检测 -Tokenization(将文本分成单词和句子) - 词和短语频率 -Parsing -n-克 - 变形(多元化和单一化)和词形化 - 修正 - 通过扩展添加新模型或语言 -WordNet集成
立即获取:
$ pip install -U textblob
$ python -m textblob.download_corpora
参考:https://textblob.readthedocs.org/en/dev/
***我无法告诉你结果,因为这是我论文的一部分,我还在努力。
答案 2 :(得分:0)
实际上,你最好自己做脏工作。正则表达式很容易删除#,@或url。标点符号和表情符号对于情绪分析非常重要。我建议使用由CMU NLP小组(http://www.cs.cmu.edu/~ark/TweetNLP/)训练的语音标记来表达这些字符。
对于像词袋和tf-idf分数这样的基本功能,我想使用Scikit-learn(http://scikit-learn.org/stable/)。 对于单词情绪,您可以使用Stanford Nlp情绪分析。(http://nlp.stanford.edu/sentiment/)