python-docx - 替换字符

时间:2016-06-29 22:32:46

标签: python text docx python-docx

我正在尝试构建一个小程序,在其中我打开docx文档并替换其他人,在检查文档后做一些旧学校凯撒式加密:[https://python-docx.readthedocs.io]我恐怕我无法找到对象方法和属性,文档只是解释如何创建某些内容,如创建段落和部分,但我无法找到有关检索文档数据和解析的任何内容。我想找到文档中的对象列表,以便我可以解析它们。

我想做这样的事情:

from docx import Document
document = Document('essay.docx')

paragraph = []
for i in document:
    paragraph.append(i)

for i in paragraph:
    for y in i:
        y.replace("a", "y")

... 

python-docx可以这样做吗?如果是这样,我会在哪里找到可以告诉我如何操作的文档?

如果我使用的是错误的库,如果你能指出它,我也会很感激。

2 个答案:

答案 0 :(得分:1)

API文档在您链接的页面上编制索引(即显示其目录),并描述所有对象和方法。 https://python-docx.readthedocs.io/en/latest/#api-documentation

答案 1 :(得分:0)

我想我发现了一些有用的东西,以防未来的读者感兴趣。 python-docx的问题是我可以单独获取段落,这将花费很多时间。我甚至不知道标题,页脚和标题是否为段落。

但是有一个名为textract的库可以读取docx和其他文件,它与python-docx集成,或者至少是短文档所说的。但我可以做的是将我的docx文件保存为PDF并使用:

text = textract.process(
    'path/to/norwegian.pdf',
    method='pdftofile',
    language='nor',
)

这允许您将所有文本作为字符串获取并保存它,保留pdf的布局。尚未测试过,如果不能按预期工作,将编辑此帖子。

http://textract.readthedocs.io/en/latest/python_package.html#python-package