标签: python
如何识别训练数据集中的pdf,无论它是电子的还是用python扫描的?
答案 0 :(得分:0)
您可以使用PDFMiner将PDF转换为HTML格式。 然后,您可以使用beautifulsoup来查找它是否仅包含<img>标记,则它完全是扫描的PDF,否则,如果找到任何文本数据,则它是电子的。 此外,您可以根据提取文本的百分比来决定。
<img>