使用NLP /机器学习将原始文本分成部分

时间:2019-06-07 14:28:41

标签: python parsing scikit-learn nltk

我有一个很大的PDF文档(包含技术内容)。内容按章,节,小节组织。有些章节包含层次结构列表(包含项目和子项目),有些则包含纯文本,有些则包含表格。我需要的是按照文档结构来解析PDF并将文本拆分为最小的部分。因此,以后我将能够分别处理每个部分(作为文本)。我打算使用python做到这一点。

您能提示我一些常见的策略吗?

我简要地研究了如何解析PDF,这似乎是使用xpdf的最简单的解决方案。输出仍然不是理想的,但是比我用PyPDF2进行的基本实验的结果要好得多。

但是,最棘手的部分即将到来-根据基本PDF,如何构造此原始输出(实际上是字符串),将其分为多个部分。我想我应该使用一些nltkscikit-learn之类的NLP库,但是不确定从什么开始。我应该为此选择哪种方法和算法。最终的结果是,我想拥有像树结构一样存储的部分数组(作为文本)。

0 个答案:

没有答案