列车组中的正/负比例

时间:2012-05-24 09:09:39

标签: machine-learning information-retrieval

我正在努力让Rocchio algorithm获得相关性反馈。我有一个查询,一些文件标记为正面和负面。例如,我有60个阳性和337个阴性。我想使用此数据集的一部分训练我的模型(在这种情况下 - 调整查询)并在另一部分上测试它。但是有了这种不平衡的数据集,我不确定有多少负面因素和多少积极因素可以用于训练集。

另一个问题是,根据测试数据集中的正/负比例,我会误导Precision,Recall和F1-score结果。在测试数据集中有49个正数和17个负数给出精度= 0.742,召回= 1.000和F1 = 0.852,TP = 49,FP = 17,TN = 0,FN = 0。

其他查询的正面/负面比例分配并没有给我任何关于我的模型选择比例的提示。

因此,我要求您提供有关使用不平衡数据集以获得正确结果的一些建议。

提前致谢,抱歉这样的菜鸟(-ish?)问题: - )

1 个答案:

答案 0 :(得分:0)

首先,我认为你的算法很难从这么少的例子中推广出来(这当然取决于特征的数量)。

其次,我不认为使用不平衡数据集是一个非常好的主意。 似乎你的算法没有学到任何东西,因为它的输出总是“正”。 这意味着如果您的数据集是平衡的,那么您的准确度将达到50%。不太好... 如果您找不到更大的数据集,我建议您将其拆分为:

  • 训练组(45个阳性/ 45个阴性)
  • 测试集(15个阳性/ 15个阴性)

无论如何,我仍然是学生,所以这就是我的想法,但如果经验丰富的用户可以确认或体弱,那将是件好事。

希望有所帮助!