python - 如何从类似pdf的字节数组中提取文本？

我目前正在处理原始电子邮件，特别是包含pdf附件的电子邮件。当我解析我的电子邮件时，我得到了格式化为字节数组类的附件，看起来大致如下：

b'%PDF-1.4\n1 0 obj\n<<\n/Creator (Oracle11gR1 AS Reports Services)\n/CreationDate (D:20171013070840)\n/ModDate (D:20171013070840)\n/Producer (Oracle PDF driver)\n/Title (LHV1708766_5B690D8A8B350700E0530A0087619F5D.pdf)\n/Author (Oracle Reports)\n>>\nendobj\n5 0 obj\n<</Length 6 0 R\n/Filter

包含很多奇怪的人物等等。

我的问题是如何从这个字节数组中仅提取“明文”？通常，我使用textract lib来提取文本，但它不能将字符串或字节数组作为参数（仅路径或文件名）

由于

如何从类似pdf的字节数组中提取文本？

0 个答案: