随机森林用于多标签分类

时间:2015-07-04 23:30:57

标签: python machine-learning svm random-forest text-classification

我正在申请多标签文本分类。 我尝试过不同的机器学习算法。

毫无疑问,具有线性内核的SVM可以获得最佳结果。

我还试图对算法Radom Forest进行排序,我得到的结果非常糟糕,回忆和精度都非常低。

线性内核响应更好的结果这一事实让我知道不同的类别是线性可分的。

随机森林结果有这么低的原因吗?

2 个答案:

答案 0 :(得分:2)

随机森林的集合在许多域和数据类型中表现良好。如果树木保持足够简单,它们可以很好地减少方差误差并且不会过度适应。

我希望森林能够与具有线性内核的SVM进行比较。

SVM会倾向于过度适应,因为它不会从一个整体中受益。

如果您没有使用某种交叉验证。使用测试/培训方案对看不见的数据的最小测量性能比我可以看到您获得此类结果。

返回并确保以看不见的数据衡量效果,并且您更有可能看到RF的表现更具可比性。

祝你好运。

答案 1 :(得分:1)

如果不查看相关数据,很难回答这个问题。

SVM确实具有使用文本分类更好地工作的历史 - 但是根据定义的机器学习是依赖于上下文的。

考虑运行随机森林算法的参数。你修剪树枝的数量和深度是多少?您是否正在为SVM搜索更大的参数空间,因此更有可能找到更好的最佳值。