我发现有一些库可以从PDF或word中提取图像,例如docx2txt和pdfimages。但是如何获取图像周围的内容(例如图像下方可能有标题)?或获取每个图像的页码?
其他一些工具(例如PyPDF2和minecart)也可以逐页提取图像。但是,我无法成功运行这些代码。
是否有很好的方法来获取图像的某些信息? (从docx2txt或pdfimages获得的图像,或另一种提取带有信息的图像的方法)
答案 0 :(得分:0)
我找到了doc2txt的代码,它只是解析docx文件的xml。因此,这实际上是一个非常简单的任务。
参考:doc2txt
答案 1 :(得分:0)
docx2python
将图像拉入文件夹,并将-----image1.png----
标记留在提取的文本中。这样可以使您靠近想要去的地方。