应用错误收集

时间：2016-06-16 01:17:45

标签： python machine-learning scikit-learn classification text-classification

我有话要问。

我已经使用Python训练了我的sklearn Logistic回归分类器和10,000个训练数据。我有2000个测试数据，我使用准确度分数来显示准确度和混淆矩阵..但两者都只显示所有测试数据的整体准确性。

我想要的是例如：

测试数据1：“abc”

给定测试数据的A类准确度：80％

给出测试数据的B类准确度：10％

给定测试数据的C类准确度：10％

测试数据2：“def”

给定测试数据的A类准确度：50％

给出测试数据的B类准确度：30％

给定测试数据的C类准确度：20％

以及其他所有测试数据。我希望像这样在表格中显示它。 example

是否可以使用sklearn？

答案 0 :(得分：0)

根据您提供的示例，我认为您要问的是每个测试数据点的概率预测。您可以使用LogisticRegression类（http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression.predict_proba）的predict_proba方法轻松完成此操作。这将为您提供每个类的概率。在您的情况下，返回的矩阵的大小应为2000 x 3。您可以将它们乘以100，以获得每个班级所需的百分比。

希望有所帮助。