我有数千个带有相关标签信息的文件。但是我也有很多没有标签的文件。
我想在文档WITH标签上训练模型,然后将训练好的分类器应用于UNTAGGED文档;然后,分类器将为每个UNTAGGED文档建议最合适的标签。
我做了很多研究,似乎没有一个SUPERVISED实现来记录标签分类。
我知道NLTK,gensim,word2vec和其他库对这个问题很有用。
我将用Python编写项目。
非常感谢任何帮助。
答案 0 :(得分:1)
根据您的实际使用情况,您可能会选择更复杂的方法,但最低工作模式可以选择:
1)预处理文件:标记化,构建词汇表(NLTK有此工具)
2)对每个文档进行bag-of-words编码
3)使用onehot编码训练机器学习模型以获得输出。从sklearn随机森林,逻辑回归,SVM开始。
答案 1 :(得分:0)
我目前正在做类似的事情, 除了@Joonatan Samuel建议我鼓励你做仔细的预处理和考虑。