如何通过有监督的学习将.txt文档分类到其他一些.txt类别

时间:2016-11-07 10:02:02

标签: python machine-learning supervised-learning document-classification

我有大量的txt文档存储在8个不同的文件夹中,这些文件夹标有主题类别(实际上,它们是1,2,3级......)。我还有另外80个文件,但还没有类别。我试图找到对它们进行分类的最佳方法。

我已经完成了文本分割并删除了英文字母(因为它们是中文文本)。接下来我该怎么办?

我可以获得具有最高TF-IDF值的单词但不知道下一步该怎么做。似乎我应该将这些文本转换为向量并训练分类器,但我不知道如何

1 个答案:

答案 0 :(得分:0)

除了实现自己的单词模型包之外,您还可以使用例如来自gensim的doc2vec。它提供了很好的性能,很难与您自己的实现相匹配。您可以选择分层softmax或负采样。