随机森林,文本分类

时间:2016-02-14 19:08:57

标签: machine-learning random-forest sentiment-analysis text-classification ensemble-learning

如何使用单词作为特征来使用随机森林算法对文本进行分类以进行情感分析?我使用单词作为功能,而随机森林使用数字,这就是我被困住的地方。

2 个答案:

答案 0 :(得分:1)

我认为您可以使用sckit-learn来帮助您解决问题。您可以在sckit-learn tutorial here的网站上查找教程。这将非常有用。

使用文本功能时,您可以使用CountVectorizer或DictVectorizer。看一下特征提取,特别是4.1.3 here

为方便您了解更多信息,您可以找到示例here。它对于分类文本文档很有用。

答案 1 :(得分:0)

您可以在随机森林管道的预处理部分使用 countvectorizer 或 tfidf。发布您的数据的摘录,我将演示