Question

截图

我想从一个PDF中提取数据，我附上了它的图像。我能够提取文本，但行标签和各个坐标不同步。

所有行标题都是一个接一个地跟着值。但我预计各个坐标会跟随行标题。 Emetteur： XYXYXYX 加兰特： RangdecréancedesTitres：格式：设计Prévue： Montant Nominal Total： - Tranche： - 塞瑞：排放大奖： Valeur（s）Nominale（s）排放日期：（JJ / MM / AAAA） DatedeDébutdePérioded'Intérêts：日期：（JJ / MM / AAAA） XYXYXYX AssortisdeSûretés Les Titres sont garantis par XYXYXYXetsécurisésavecrecours contre l'EmetteurlimitéauPool d'ActifsGagés（voir la section Dispositions relatives aux Titres AssortisdeSûretésci-dessous）。欧元 300亿欧元 300亿欧元 100％du Montant Nominal Total 1 000欧元 2017年5月7日 Sans objet 2029年5月7日

我正在使用以下代码。

    for page in PDFPage.get_pages(file, pagenos):
        interpreter.process_page(page)
    str = (retstr.getvalue()).decode('utf-8')

我尝试检查它是否是使用Tabula的表，但它不是表格格式。请帮忙。

无法以正确的格式解析PDF - PDFminer

0 个答案: