我正在尝试将pdf解压缩为txt文件。输出文件非常成功,除了某些句子包含(CID:number)之类的字符。起初我以为是因为土耳其字符,但事实证明还好。例如下面的句子
(cid:54)usıcaklığı
第一个字符是s(小写)。所以我不明白为什么其他“ s”是正常的。谁能解释?我该如何解决?
这是我正在使用的功能
def pdfparser(data):
fp = open(data, 'rb')
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
data = retstr.getvalue()
print(data)