如何从PDF或Word中提取图像以及图像周围的文本?

时间:2019-04-09 09:15:49

标签: python shell pdf ms-word image-extraction

我发现有一些库可以从PDF或word中提取图像,例如docx2txt和pdfimages。但是如何获取图像周围的内容(例如图像下方可能有标题)?或获取每个图像的页码?

其他一些工具(例如PyPDF2和minecart)也可以逐页提取图像。但是,我无法成功运行这些代码。

是否有很好的方法来获取图像的某些信息? (从docx2txt或pdfimages获得的图像,或另一种提取带有信息的图像的方法)

2 个答案:

答案 0 :(得分:0)

我找到了doc2txt的代码,它只是解析docx文件的xml。因此,这实际上是一个非常简单的任务。

参考:doc2txt

答案 1 :(得分:0)

docx2python将图像拉入文件夹,并将-----image1.png----标记留在提取的文本中。这样可以使您靠近想要去的地方。