标签: python text-mining pypdf2 pdfminer
我正在使用python库PyPDF2裁剪许多PDF文件,以切除学术论文顶部和底部的无用信息(即底部的页码和期刊信息)。然后,我使用库textract将文本从裁剪的PDF文件提取为txt文件。但是,尽管已裁剪,但输出txt文件仍包含裁剪出的信息。 这也适用于pdfminer,另一个文本提取库(不是OCR)。似乎与OCR相比,对于文本提取,不能仅通过裁剪来消除文本。谁能解释为什么会这样?关于如何消除PDF文件中无用信息以进行文本提取的任何想法?
PyPDF2
textract
pdfminer