应用错误收集

使用逻辑回归进行文本分类

时间：2017-12-20 11:36:10

标签： python text-classification

我打算对电子邮件进行分类。我使用tfidf矢量化器和逻辑回归算法来做到这一点。我参加了非常小的培训和测试。我的训练集包括150封电子邮件（3个班级，50封电子邮件/班级），测试集包含6封电子邮件。现在我的分类器正在预测6个中的4个。现在我的疑问是，我可以告诉分类器这个文件属于X类而不是Y类吗？如果是，这个过程叫做什么？

谢谢。

1 个答案:

答案 0 :(得分：0)

如果您有3个班级和标记数据并且已经训练过该模型，那么您已经告诉分类器＆＃34;你可以做的一切（即训练）。

如果您说要告诉分类器有关失败的2/6测试用例，那么Logistic回归（可能还有其他一些反馈模型）是不可能的。您需要的是更多地训练模型，或添加更多测试用例。您可以将这2个失败案例添加到培训中并尝试不同的测试数据。

你可能有一个你可以尝试调整的低调模型，但是通过实验我已经完成了类似于你的文本，很难用有限的数据获得真正的高精度，而且只需要tf-idf ＃34;模型＆＃34;只是单词频率。