应用错误收集

列车组中的正/负比例

时间：2012-05-24 09:09:39

标签： machine-learning information-retrieval

我正在努力让Rocchio algorithm获得相关性反馈。我有一个查询，一些文件标记为正面和负面。例如，我有60个阳性和337个阴性。我想使用此数据集的一部分训练我的模型（在这种情况下 - 调整查询）并在另一部分上测试它。但是有了这种不平衡的数据集，我不确定有多少负面因素和多少积极因素可以用于训练集。

另一个问题是，根据测试数据集中的正/负比例，我会误导Precision，Recall和F1-score结果。在测试数据集中有49个正数和17个负数给出精度= 0.742，召回= 1.000和F1 = 0.852，TP = 49，FP = 17，TN = 0，FN = 0。

其他查询的正面/负面比例分配并没有给我任何关于我的模型选择比例的提示。

因此，我要求您提供有关使用不平衡数据集以获得正确结果的一些建议。

提前致谢，抱歉这样的菜鸟（-ish？）问题： - ）

1 个答案:

答案 0 :(得分：0)

首先，我认为你的算法很难从这么少的例子中推广出来（这当然取决于特征的数量）。

其次，我不认为使用不平衡数据集是一个非常好的主意。似乎你的算法没有学到任何东西，因为它的输出总是“正”。这意味着如果您的数据集是平衡的，那么您的准确度将达到50％。不太好... 如果您找不到更大的数据集，我建议您将其拆分为：

训练组（45个阳性/ 45个阴性）
测试集（15个阳性/ 15个阴性）

无论如何，我仍然是学生，所以这就是我的想法，但如果经验丰富的用户可以确认或体弱，那将是件好事。

希望有所帮助！