我目前正在处理原始电子邮件,特别是包含pdf附件的电子邮件。当我解析我的电子邮件时,我得到了格式化为字节数组类的附件,看起来大致如下:
b'%PDF-1.4\n1 0 obj\n<<\n/Creator (Oracle11gR1 AS Reports Services)\n/CreationDate (D:20171013070840)\n/ModDate (D:20171013070840)\n/Producer (Oracle PDF driver)\n/Title (LHV1708766_5B690D8A8B350700E0530A0087619F5D.pdf)\n/Author (Oracle Reports)\n>>\nendobj\n5 0 obj\n<</Length 6 0 R\n/Filter
包含很多奇怪的人物等等。
我的问题是如何从这个字节数组中仅提取“明文”?通常,我使用textract lib来提取文本,但它不能将字符串或字节数组作为参数(仅路径或文件名)
由于