应用错误收集

裁剪PDF文件无法裁剪文本以进行文本提取（textract和pdfminer）

时间：2018-09-29 22:59:41

标签： python text-mining pypdf2 pdfminer

我正在使用python库PyPDF2裁剪许多PDF文件，以切除学术论文顶部和底部的无用信息（即底部的页码和期刊信息）。然后，我使用库textract将文本从裁剪的PDF文件提取为txt文件。但是，尽管已裁剪，但输出txt文件仍包含裁剪出的信息。这也适用于pdfminer，另一个文本提取库（不是OCR）。似乎与OCR相比，对于文本提取，不能仅通过裁剪来消除文本。谁能解释为什么会这样？关于如何消除PDF文件中无用信息以进行文本提取的任何想法？

0 个答案:

没有答案

使用Python中的PDFMiner从PDF文件中提取文本？
即使在Python中尝试pdfminer，pdf2txt，textract，也无法将pdf转换为文本
Textract无法读取JpegImageFile（StringIO对象）
使用textract模块进行PDF抓取
从PDF中提取文本（目录）忽略页码和索引编号
textract在pdf上不起作用
裁剪PDF文件无法裁剪文本以进行文本提取（textract和pdfminer）
将边界框内的pdf文本直接提取到python中
Python：无法从PDF提取文本-TypeError
如何使用Python提取同时包含文本和图像的PDF文档？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？