Question

我正在研究DNA序列数据，并在Pytorch中使用CNN。我的数据集非常不平衡。

正级样本（〜500个）

阴性样本（〜150,000）

因此，在将数据馈送到数据加载器之前，我正在使用WeightedRandomSampler对类进行过度采样和平衡。

我使用5倍交叉验证。当我很少进行测试运行时，我可以获得不错的ROC值，但PR-AUC值似乎确实很低。

对于第一折：

roc auc 0.9667848699763594

精度auc 0.055329116326074484

第二折：

roc auc 0.8476321207961566

精度auc 0.03307627288669479

第三折：

roc auc 0.9528898540612085

精度auc 0.05020178518546394

我怀疑有很多假阴性。由于阳性分类样本（〜500个）与阴性分类样本（〜150,000个）相比非常低，因此该模型可以更好地学习阴性分类，并预测大多数测试样本为阴性。

我尝试使用权衡正面评价

Translator

这样做，几乎所有样本都被预测为阳性。

我也尝试了自适应学习率，但是精度调用值似乎并没有提高。 有人可以指导我，让我知道提高精度和查全率的想法吗？

谢谢！