文件的监督标签建议

时间:2017-06-26 15:55:57

标签: python machine-learning nlp text-classification

我有数千个带有相关标签信息的文件。但是我也有很多没有标签的文件。

我想在文档WITH标签上训练模型,然后将训练好的分类器应用于UNTAGGED文档;然后,分类器将为每个UNTAGGED文档建议最合适的标签。

我做了很多研究,似乎没有一个SUPERVISED实现来记录标签分类。

我知道NLTK,gensim,word2vec和其他库对这个问题很有用。

我将用Python编写项目。

非常感谢任何帮助。

2 个答案:

答案 0 :(得分:1)

根据您的实际使用情况,您可能会选择更复杂的方法,但最低工作模式可以选择:

1)预处理文件:标记化,构建词汇表(NLTK有此工具)

2)对每个文档进行bag-of-words编码

3)使用onehot编码训练机器学习模型以获得输出。从sklearn随机森林,逻辑回归,SVM开始。

答案 1 :(得分:0)

我目前正在做类似的事情, 除了@Joonatan Samuel建议我鼓励你做仔细的预处理和考虑。

  1. 如果您需要两个或更多文档标签,您可以训练多个模型:每个标签一个模型。您需要考虑每个模型(标签)是否有足够的案例
  2. 如果你有很多标签,你可能会遇到上述文件标签案件的问题。
  3. 坚持最常见的标签预测不要试图预测所有标签。