使用win32com

时间:2019-07-02 12:23:53

标签: python-3.x pywin32 win32com

我正在尝试从.doc(非.docx!)格式的报告中提取标题和其他数据。到目前为止,我已编写的代码将全部内容读在一起,而忽略了行和段落(直接读取或保存为.txt文件):

DOC_FILEPATH = os.path.join('file.doc')
doc = win32com.client.GetObject(DOC_FILEPATH)
text= doc.Range().Text

如何读取文件,以便将行和段落保持原样?

1 个答案:

答案 0 :(得分:1)

我找到了解决问题的方法。可能对类似情况有用。标签.Text应该从text= doc.Range().Text的末尾删除,然后读者才能很好地保留行和段落:)。所以正确的代码应该是这样的:

DOC_FILEPATH = os.path.join('file.doc')
doc = win32com.client.GetObject(DOC_FILEPATH)
text= doc.Range()