使用逻辑回归进行文本分类

时间:2017-12-20 11:36:10

标签: python text-classification

我打算对电子邮件进行分类。我使用tfidf矢量化器和逻辑回归算法来做到这一点。我参加了非常小的培训和测试。我的训练集包括150封电子邮件(3个班级,50封电子邮件/班级),测试集包含6封电子邮件。现在我的分类器正在预测6个中的4个。现在我的疑问是,我可以告诉分类器这个文件属于X类而不是Y类吗?如果是,这个过程叫做什么?

谢谢。

1 个答案:

答案 0 :(得分:0)

如果您有3个班级和标记数据并且已经训练过该模型,那么您已经告诉分类器"你可以做的一切(即训练)。

如果您说要告诉分类器有关失败的2/6测试用例,那么Logistic回归(可能还有其他一些反馈模型)是不可能的。您需要的是更多地训练模型,或添加更多测试用例。您可以将这2个失败案例添加到培训中并尝试不同的测试数据。

你可能有一个你可以尝试调整的低调模型,但是通过实验我已经完成了类似于你的文本,很难用有限的数据获得真正的高精度,而且只需要tf-idf #34;模型"只是单词频率。