我使用Mahout的朴素贝叶斯算法将亚马逊的评论分类为正面或负面评论。
数据集分布不均匀。有更多积极的负面评论。随机挑选的测试和训练集使用随机选择的元组进行mahout分割导致良好的阳性分类结果,但误报率也非常高。负面评论很少被归类为负面评论。
我想一个均衡分布的训练集,其中有正数和负数相同的数量可能会解决问题。
我尝试过使用mahout split和这些选项,然后只是切换训练和测试,但这似乎只为一个类产生了tupels。
--testSplitSize (-ss) testSplitSize The number of documents
held back as test data for
each category
--testSplitPct (-sp) testSplitPct The % of documents held
back as test data for each
category
--splitLocation (-sl) splitLocation Location for start of test
data expressed as a
percentage of the input
file size (0=start,
50=middle, 100=end
有没有办法让mahout分裂或另一个获得适当的训练集?
答案 0 :(得分:0)
我会说训练和测试集应该反映人口不足。我不会创建一个具有相同正面和负面评论的测试集。
更好的解决方案可能是通过bootstrapping创建多个集合。让委员会投票改善你的结果。