我正在开展一个机器学习项目,我正处于进步的第一阶段。我正在努力提取功能并测试要使用或不使用的功能。我有一个由2个类组成的数据集。我想检查情绪之间是否发生关系,并且是否是其中一个组。我的数据如下:
group_a this is a tweet
group_b this is another tweet
group_b this is another tweet
group_a this is another tweet
如何找到情绪和群组之间的相关性?因为这是我项目的功能选择部分,我可以使用任何工具而不是手动实施。 WEKA,PRTools或任何其他,如果你能告诉我怎么做,欢迎你。
PS:实际上在实施算法之前,我想检查一下我是否能得到类似的内容:
即。 group_a比group_b
更负面所以,在我得到一个句子的测试数据时,我可以说如果是负面的情绪句子,它可能与group_a有关
答案 0 :(得分:0)
从您的问题来看,我假设您正在尝试将二元情绪分类转化为积极与消极的情绪。我建议在Weka中使用C4.5决策树分类器。如果你想深入了解C4.5模型中熵测量如何实现的理论细节,请查看Ch。 4 Mark Hall's thesis
答案 1 :(得分:0)
这是关于如何在NLTK中执行情感分析的一个很好的文档。
http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/
此外,scikit-learn是一个用于Python编程语言的开源机器学习库。由于你只将2个班级分类,伯努利朴素贝叶斯分类器应该能够有效地解决你的任务。
http://scikit-learn.org/stable/modules/naive_bayes.html#bernoulli-naive-bayes
您的解决方案= nltk + scikit
干杯。