使用Python从word文档中提取图像和文本

时间:2011-06-14 14:29:36

标签: python image ms-word extract pywin32

我想在一个充满单词文档的文件夹上运行一个脚本,该文档可以读取文档并提取图像及其标题(图像正下方的文本)。根据我所做的研究,我认为pywin32可能是一个可行的解决方案。我知道如何使用pywin32来查找字符串并将其拉出来,但我需要图片部分的帮助。如何查看docx文件并在找到图像时发生事件?感谢您的任何帮助!我使用的是Python 2.7。

4 个答案:

答案 0 :(得分:3)

在这篇文章How can I search a word in a Word 2007 .docx file?

中找到一些灵感

答案 1 :(得分:3)

可以解压缩Docx文件以提取图像。

答案 2 :(得分:2)

您可以使用python模块docx2txt从docx文件中提取文本和图像

答案 3 :(得分:-1)

document =docx.Document(filepath)
for image in document.inline_shapes:
    print (image.width, image.height)

试试这个它会起作用。