使用python-docx来读取.docx,保留特殊字符,项目符号

时间:2017-04-11 13:26:51

标签: python python-docx

我正在尝试在python中批量操作.docx格式的许多微软word文档。

以下代码完成了我的需要,除了它丢失了我想要保留的特殊字符,如右箭头符号和项目符号。

import docx

def getText(filename):
    doc = docx.Document(filename)
    fullText = []
    for para in doc.paragraphs:
        fullText.append(para.text)
    return fullText

getText('example.docx')

1 个答案:

答案 0 :(得分:1)

Paragraph.text中的python-pptx属性将段落中的纯文本作为字符串返回。这是一个非常普遍的要求。

子弹或一般编号的列表(子弹是一种类型)不会反映在段落的文本中,即使它可能在屏幕上显示。这类事情将是该段的附加属性。

可以应用单向子弹的方式是使用'List Bullet'样式。段落样式可在Paragraph.style上找到。

此处的文档是您和其他详细信息的朋友,特别是“用户指南”部分中的11个主题:
http://python-docx.readthedocs.io/en/latest/