应用错误收集

如何从PDF或Word中提取图像以及图像周围的文本？

时间：2019-04-09 09:15:49

标签： python shell pdf ms-word image-extraction

我发现有一些库可以从PDF或word中提取图像，例如docx2txt和pdfimages。但是如何获取图像周围的内容（例如图像下方可能有标题）？或获取每个图像的页码？

其他一些工具（例如PyPDF2和minecart）也可以逐页提取图像。但是，我无法成功运行这些代码。

是否有很好的方法来获取图像的某些信息？（从docx2txt或pdfimages获得的图像，或另一种提取带有信息的图像的方法）

2 个答案:

答案 0 :(得分：0)

我找到了doc2txt的代码，它只是解析docx文件的xml。因此，这实际上是一个非常简单的任务。

参考：doc2txt

答案 1 :(得分：0)

docx2python将图像拉入文件夹，并将-----image1.png----标记留在提取的文本中。这样可以使您靠近想要去的地方。