我正在尝试在python中批量操作.docx格式的许多微软word文档。
以下代码完成了我的需要,除了它丢失了我想要保留的特殊字符,如右箭头符号和项目符号。
import docx
def getText(filename):
doc = docx.Document(filename)
fullText = []
for para in doc.paragraphs:
fullText.append(para.text)
return fullText
getText('example.docx')
答案 0 :(得分:1)
Paragraph.text
中的python-pptx
属性将段落中的纯文本作为字符串返回。这是一个非常普遍的要求。
子弹或一般编号的列表(子弹是一种类型)不会反映在段落的文本中,即使它可能在屏幕上显示。这类事情将是该段的附加属性。
可以应用单向子弹的方式是使用'List Bullet'样式。段落样式可在Paragraph.style
上找到。
此处的文档是您和其他详细信息的朋友,特别是“用户指南”部分中的11个主题:
http://python-docx.readthedocs.io/en/latest/