应用错误收集

如何使用nltk从text / pdf中提取段落？

时间：2017-03-07 10:39:58

标签： nlp nltk

我想从大文本文件中提取段落，基本思路是提取pdf的每个部分，我知道以下内容：每个部分都以7.1,7.2之类的数字开头，所以我想提取7.2之前的所有文本，这些文本属于7.1，同样如果我在第一次出现世界7.3之前提取所有文本，并减去7-1，它会给我7.2。那么有没有办法在nltk中做到这一点？

0 个答案:

没有答案