在python中处理.doc文件并获取有限的字符列表

时间:2014-04-14 12:06:07

标签: python openoffice.org doc

我知道.doc文件无法在python中直接读取。因此,当我使用os.open()os.read()在python中读取它时,无论实际文档有多长,我都会得到以下结果,我想知道这些字符是什么?

b'\xd0\xcf\x11\xe0\xa1\xb1'

1 个答案:

答案 0 :(得分:1)

它是OLECF文件的签名:

http://www.forensicswiki.org/wiki/OLE_Compound_File#File_signature

OLECF用于存储:

  • Microsoft Office 97-2003文档:
    • Word文档(DOC)
    • Excel电子表格(XLS)
    • Powerpoint Presentation(PPT)
  • MSN(工具栏)(C:\ Documents and Settings \%USERNAME%\ Local Settings \ Application - Data \ Microsoft \ MSNe \ msninfo.dat)
  • 跳转列表
  • StickyNotes.snt
  • 的Thumbs.db
  • Windows Installer(.msi)和补丁文件(.msp)
  • Windows搜索(srchadm.msc)

有关详细信息,请参阅Compound Binary File Specification

话虽这么说,阅读.doc文件并不是从MS Word文件中提取文本的简单方法。如果您正在处理的文件是.docx文件,则可以尝试使用python-docx库。