我正在尝试从.doc(非.docx!)格式的报告中提取标题和其他数据。到目前为止,我已编写的代码将全部内容读在一起,而忽略了行和段落(直接读取或保存为.txt文件):
DOC_FILEPATH = os.path.join('file.doc')
doc = win32com.client.GetObject(DOC_FILEPATH)
text= doc.Range().Text
如何读取文件,以便将行和段落保持原样?
答案 0 :(得分:1)
我找到了解决问题的方法。可能对类似情况有用。标签.Text
应该从text= doc.Range().Text
的末尾删除,然后读者才能很好地保留行和段落:)。所以正确的代码应该是这样的:
DOC_FILEPATH = os.path.join('file.doc')
doc = win32com.client.GetObject(DOC_FILEPATH)
text= doc.Range()