我正在使用sklearn分类器,各种分类器,但主要集中在决策树上。我认为我有偏见的问题。这是我正在使用的,
一套25k的培训记录(总数据约为500k) 提供的95%的实际数据是错误的,因为客户通常将此数据标记为错误
25k的培训记录包括95%的错误和5%的真实
在训练和测试时,根据我使用的功能,我的准确度在85%到94%之间。有时即使只有两个功能提供90%的准确性,而20个功能(我知道很重要)增加到94%。我认为这是不正确的,我的感觉是,由于我提供的数据,存在一些偏向于错误的偏见。我是否应该在我的训练集中包含更多记录为“true”,也许使用30k记录,从我们的实际数据中添加另一组5k是“真实”值?
答案 0 :(得分:1)
有可能您的所有测试数据都是假的,在这种情况下,总是选错,您可以获得95%的有效性。
您有类不平衡问题。这在许多现实场景中都是典型的。例如,HIV阳性病例很少发生HIV阴性,癌细胞或欺诈交易。你需要看看False Negatives与True Positives的成本是多少能够将你的算法调整为优于效率等等。
我会做的几件事: