Mahout:如何分成均匀分布的训练集

时间:2014-08-07 17:43:01

标签: hadoop machine-learning mahout

我使用Mahout的朴素贝叶斯算法将亚马逊的评论分类为正面或负面评论。

数据集分布不均匀。有更多积极的负面评论。随机挑选的测试和训练集使用随机选择的元组进行mahout分割导致良好的阳性分类结果,但误报率也非常高。负面评论很少被归类为负面评论。

我想一个均衡分布的训练集,其中有正数和负数相同的数量可能会解决问题。

我尝试过使用mahout split和这些选项,然后只是切换训练和测试,但这似乎只为一个类产生了tupels。

 --testSplitSize (-ss) testSplitSize               The number of documents
                                                 held back as test data for
                                                 each category
 --testSplitPct (-sp) testSplitPct                  The % of documents held
                                                 back as test data for each
                                                 category
 --splitLocation (-sl) splitLocation                Location for start of test
                                                 data expressed as a
                                                 percentage of the input
                                                 file size (0=start,
                                                 50=middle, 100=end

有没有办法让mahout分裂或另一个获得适当的训练集?

1 个答案:

答案 0 :(得分:0)

我会说训练和测试集应该反映人口不足。我不会创建一个具有相同正面和负面评论的测试集。

更好的解决方案可能是通过bootstrapping创建多个集合。让委员会投票改善你的结果。