PDF类型检测

时间:2018-06-23 20:39:49

标签: python

如何识别训练数据集中的pdf,无论它是电子的还是用python扫描的?

1 个答案:

答案 0 :(得分:0)

您可以使用PDFMiner将PDF转换为HTML格式。
然后,您可以使用beautifulsoup来查找它是否仅包含<img>标记,则它完全是扫描的PDF,否则,如果找到任何文本数据,则它是电子的。
此外,您可以根据提取文本的百分比来决定。