我正在研究DNA序列数据,并在Pytorch中使用CNN。我的数据集非常不平衡。
正级样本(〜500个)
阴性样本(〜150,000)
因此,在将数据馈送到数据加载器之前,我正在使用WeightedRandomSampler对类进行过度采样和平衡。
我使用5倍交叉验证。当我很少进行测试运行时,我可以获得不错的ROC值,但PR-AUC值似乎确实很低。
对于第一折:
roc auc 0.9667848699763594
精度auc 0.055329116326074484
第二折:
roc auc 0.8476321207961566
精度auc 0.03307627288669479
第三折:
roc auc 0.9528898540612085
精度auc 0.05020178518546394
我怀疑有很多假阴性。由于阳性分类样本(〜500个)与阴性分类样本(〜150,000个)相比非常低,因此该模型可以更好地学习阴性分类,并预测大多数测试样本为阴性。
我尝试使用权衡正面评价
Translator
这样做,几乎所有样本都被预测为阳性。
我也尝试了自适应学习率,但是精度调用值似乎并没有提高。 有人可以指导我,让我知道提高精度和查全率的想法吗?
谢谢!