如何从类似pdf的字节数组中提取文本?

时间:2017-10-20 12:50:11

标签: python python-3.x pdf

我目前正在处理原始电子邮件,特别是包含pdf附件的电子邮件。当我解析我的电子邮件时,我得到了格式化为字节数组类的附件,看起来大致如下:

b'%PDF-1.4\n1 0 obj\n<<\n/Creator (Oracle11gR1 AS Reports Services)\n/CreationDate (D:20171013070840)\n/ModDate (D:20171013070840)\n/Producer (Oracle PDF driver)\n/Title (LHV1708766_5B690D8A8B350700E0530A0087619F5D.pdf)\n/Author (Oracle Reports)\n>>\nendobj\n5 0 obj\n<</Length 6 0 R\n/Filter

包含很多奇怪的人物等等。

我的问题是如何从这个字节数组中仅提取“明文”?通常,我使用textract lib来提取文本,但它不能将字符串或字节数组作为参数(仅路径或文件名)

由于

0 个答案:

没有答案