我正在尝试从半结构化文档中提取信息(例如Resume)。 简历中的信息按个人详细信息,经验,学历,技能,嗜好等不同部分构成。我正在考虑创建一个简历解析器,该解析器可以自动为我检测所有信息。我遇到了来自sci-kit-learn的spacy,nltk,文本分类等等。 主题建模显示了如何根据内容将整个文档分类为类别。但是我想要的是将文档中的内容分类为不同的类别(例如个人信息,技能,经验等)。我相信的是,如果我进行这种分类,我可以非常有效地提取数据。 (例如,如果我可以将“个人详细信息”部分分类为变量,则可以轻松提取人员姓名和地址,而无需解析整个文档。)
提前谢谢