我正在尝试构建一个小程序,在其中我打开docx文档并替换其他人,在检查文档后做一些旧学校凯撒式加密:[https://python-docx.readthedocs.io]我恐怕我无法找到对象方法和属性,文档只是解释如何创建某些内容,如创建段落和部分,但我无法找到有关检索文档数据和解析的任何内容。我想找到文档中的对象列表,以便我可以解析它们。
我想做这样的事情:
from docx import Document
document = Document('essay.docx')
paragraph = []
for i in document:
paragraph.append(i)
for i in paragraph:
for y in i:
y.replace("a", "y")
...
python-docx可以这样做吗?如果是这样,我会在哪里找到可以告诉我如何操作的文档?
如果我使用的是错误的库,如果你能指出它,我也会很感激。
答案 0 :(得分:1)
API文档在您链接的页面上编制索引(即显示其目录),并描述所有对象和方法。 https://python-docx.readthedocs.io/en/latest/#api-documentation
答案 1 :(得分:0)
我想我发现了一些有用的东西,以防未来的读者感兴趣。 python-docx的问题是我可以单独获取段落,这将花费很多时间。我甚至不知道标题,页脚和标题是否为段落。
但是有一个名为textract的库可以读取docx和其他文件,它与python-docx集成,或者至少是短文档所说的。但我可以做的是将我的docx文件保存为PDF并使用:
text = textract.process(
'path/to/norwegian.pdf',
method='pdftofile',
language='nor',
)
这允许您将所有文本作为字符串获取并保存它,保留pdf的布局。尚未测试过,如果不能按预期工作,将编辑此帖子。
http://textract.readthedocs.io/en/latest/python_package.html#python-package