Python - pdf预览,用户可以选择或突出显示文本

时间:2018-05-15 21:12:48

标签: python pdf text-extraction

我一直在使用pdfminer从pdf文档中提取文本。在某些情况下,用户只想提取某些文本。某些文本由用户根据具体情况定义。任何人都可以推荐一个python包,它可以容纳文档的预览窗口,并允许用户突出显示或选择要提取的某些段落吗?

1 个答案:

答案 0 :(得分:1)

我喜欢使用PyMuPDF(由模块“fitz”导入)和Pillow(模块“PIL”)组合进行PDF图像处理。 ( Pillow更适用于一般图像处理

PyMuPDF允许一个人获取一个pdf页面并从中获取一个png - 并且包括Matrix转换以潜在地允许“预览窗口”效果,但它需要相当多的编程来达到这一点 - 并且然后它只是一个图像,所以你不能选择文本,除非你把它放在上面。

可能有其他功能可以提供帮助,但您必须自己寻找。