Question

我在这个领域比较新，现在有点困惑......我将解释：我的数据中有一些元素，每个元素的值介于0和1之间相关标签（1,0）。我需要测试一些阈值，例如阈值= 0.4，所有值＆gt; 0.4将被预测为真（1）并且所有值<1。 0.4将被预测为假（0）。我想我不需要机器学习分类器，因为根据我选择的阈值，我已经知道为每个元素分配了哪个标签。

这是我迄今为止所做的事情：

prediction = []
for row in range(dfAggr.shape[0]):
    if dfAggr['value'].values[row] >= threshold:
        prediction.append(1)
    else
        prediction.append(0)

label = dfAggr['truth'].values.astype(int)

#ROC CURVE
fpr, tpr, thresholds = roc_curve(label, prediction)
roc_auc = auc(fpr, tpr)
plt.plot(fpr, tpr, lw=1, label='ROC (area = %0.2f)' % (roc_auc))
plt.plot([0, 1], [0, 1], '--', color=(0.6, 0.6, 0.6), label='Luck')
plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.grid()
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.savefig("rocauc.pdf", format="pdf")
plt.show()

我得到了这个情节：

我认为这个情节是错误的，因为我希望通过测试0到1之间的每个可能阈值来构建ROC曲线，以获得最佳的截止值。

我所做的事情在概念上是错误的吗？

Answer 1

我假设你正在使用from sklearn.metrics import roc_curve。 roc_curve函数将为您完成所有阈值，无需自行预选。

你应该这样做：

predictions =  dfAggr['value'].values
label = dfAggr['truth'].values.astype(int)
fpr, tpr, thresholds = roc_curve(label, predictions)
[...]

Python sklearn ROC-AUC曲线只有一个功能和各种阈值

1 个答案: