当文档包含图像时,使用python-docx发出读取文本

时间:2014-06-28 01:21:32

标签: python ubuntu docx python-docx

我在从包含图像的文档中解析文本时遇到问题。

我在运行Ubuntu 12.04.4 LTS(GNU / Linux 3.2.0-60-generic x86_64)的Ubuntu Linux机器上使用版本0.7.0的Python docx

我正在使用这个逻辑:

```

        document = Document(path)
        # Get all paragraphs
        paras = document.paragraphs

        text = ""

        # Push the text from the paragraph on a single string
        for para in paras:
            # Don't forget the line break
            text += "\n" + para.text

        return text.strip()

```

当有图像时,此过程失败。

我做错了吗?

1 个答案:

答案 0 :(得分:0)

python-docx应该支持您在此尝试做的事情。如果您提供了错误提升时的堆栈跟踪,我将会看一下。

顺便说一下,你可以更优雅地编码:

document = Document(path)
text = '\n'.join([para.text for para in document.paragraphs])