使用Python从Word文档中提取图像

时间:2019-06-03 13:31:05

标签: python python-3.x python-2.7

如何使用python从Word文档中提取图像/徽标并将其存储在文件夹中。以下代码将docx转换为html,但不会从html中提取图像。任何指针/建议都会有很大帮助。

    profile_path = <file path>
    result=mammoth.convert_to_html( profile_path)
    f = open(profile_path, 'rb')
    b = open(profile_html, 'wb')
    document = mammoth.convert_to_html(f)
    b.write(document.value.encode('utf8'))
    f.close()
    b.close()

1 个答案:

答案 0 :(得分:0)

您可以使用 {{3}} 库,它将读取您的.docx文档并将图像导出到您指定的目录(必须存在)。

!pip install docx2txt
import docx2txt
text = docx2txt.process("/path/your_word_doc.docx", '/home/example/img/') 

执行后,图像将位于 / home / example / img / 中,变量 text 将具有文档文本。按照出现的顺序,它们将被命名为image1.png ... imageN.png。

注意:Word文档必须为.docx格式。