pdfminer提取的文本包含CID字符

时间:2019-02-01 10:16:13

标签: python pdf text pdfminer

我正在尝试将pdf解压缩为txt文件。输出文件非常成功,除了某些句子包含(CID:number)之类的字符。起初我以为是因为土耳其字符,但事实证明还好。例如下面的句子

(cid:54)usıcaklığı

第一个字符是s(小写)。所以我不明白为什么其他“ s”是正常的。谁能解释?我该如何解决?

这是我正在使用的功能

def pdfparser(data):
fp = open(data, 'rb')
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)

for page in PDFPage.get_pages(fp):
    interpreter.process_page(page)
    data = retstr.getvalue()

print(data)

0 个答案:

没有答案