如何使用nltk从text / pdf中提取段落?

时间:2017-03-07 10:39:58

标签: nlp nltk

我想从大文本文件中提取段落,基本思路是提取pdf的每个部分,我知道以下内容: 每个部分都以7.1,7.2之类的数字开头,所以我想提取7.2之前的所有文本,这些文本属于7.1,同样如果我在第一次出现世界7.3之前提取所有文本,并减去7-1,它会给我7.2。那么有没有办法在nltk中做到这一点?

0 个答案:

没有答案