如何将文档中的内容分类到其他类别。

时间:2019-04-29 12:09:59

标签: python-3.x machine-learning nlp text-classification topic-modeling

我正在尝试从半结构化文档中提取信息(例如Resume)。 简历中的信息按个人详细信息,经验,学历,技能,嗜好等不同部分构成。我正在考虑创建一个简历解析器,该解析器可以自动为我检测所有信息。我遇到了来自sci-kit-learn的spacy,nltk,文本分类等等。  主题建模显示了如何根据内容将整个文档分类为类别。但是我想要的是将文档中的内容分类为不同的类别(例如个人信息,技能,经验等)。我相信的是,如果我进行这种分类,我可以非常有效地提取数据。 (例如,如果我可以将“个人详细信息”部分分类为变量,则可以轻松提取人员姓名和地址,而无需解析整个文档。)

提前谢谢

0 个答案:

没有答案