应用错误收集

我正在尝试将pdf解压缩为txt文件。输出文件非常成功，除了某些句子包含（CID：number）之类的字符。起初我以为是因为土耳其字符，但事实证明还好。例如下面的句子

（cid：54）usıcaklığı

第一个字符是s（小写）。所以我不明白为什么其他“ s”是正常的。谁能解释？我该如何解决？

这是我正在使用的功能

def pdfparser(data):
fp = open(data, 'rb')
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)

for page in PDFPage.get_pages(fp):
    interpreter.process_page(page)
    data = retstr.getvalue()

print(data)

pdfminer提取的文本包含CID字符

0 个答案: