无法以正确的格式解析PDF - PDFminer

时间:2018-03-23 03:49:14

标签: python pdf

截图

我想从一个PDF中提取数据,我附上了它的图像。我能够提取文本,但行标签和各个坐标不同步。

所有行标题都是一个接一个地跟着值。但我预计各个坐标会跟随行标题。 Emetteur: XYXYXYX 加兰特: RangdecréancedesTitres: 格式: 设计Prévue: Montant Nominal Total: - Tranche: - 塞瑞: 排放大奖: Valeur(s)Nominale(s) 排放日期:(JJ / MM / AAAA) DatedeDébutdePérioded'Intérêts: 日期:(JJ / MM / AAAA) XYXYXYX AssortisdeSûretés Les Titres sont garantis par XYXYXYXetsécurisésavecrecours contre l'EmetteurlimitéauPool d'ActifsGagés(voir la section Dispositions relatives aux Titres AssortisdeSûretésci-dessous)。 欧元 300亿欧元 300亿欧元 100%du Montant Nominal Total 1 000欧元 2017年5月7日 Sans objet 2029年5月7日

我正在使用以下代码。

    for page in PDFPage.get_pages(file, pagenos):
        interpreter.process_page(page)
    str = (retstr.getvalue()).decode('utf-8')

我尝试检查它是否是使用Tabula的表,但它不是表格格式。请帮忙。

0 个答案:

没有答案