我知道.doc文件无法在python中直接读取。因此,当我使用os.open()
和os.read()
在python中读取它时,无论实际文档有多长,我都会得到以下结果,我想知道这些字符是什么?
b'\xd0\xcf\x11\xe0\xa1\xb1'
答案 0 :(得分:1)
它是OLECF文件的签名:
http://www.forensicswiki.org/wiki/OLE_Compound_File#File_signature
OLECF用于存储:
有关详细信息,请参阅Compound Binary File Specification
话虽这么说,阅读.doc文件并不是从MS Word文件中提取文本的简单方法。如果您正在处理的文件是.docx文件,则可以尝试使用python-docx库。