使用Poppler-utils将PDF转换为文本时,如何保留格式并删除隐藏数据

时间:2019-07-08 08:49:34

标签: python python-3.x poppler

我的PDF格式如下

**Cutomer PO number Invoice  Date1  Date2     Currency**

11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00

所以我将pdf转换为文本。

pdftotext -layout -f sample.pdf sample.txt

这是问题所在,该行溢出到下一行,如下所示。

11235 po-689573/gqmr312
                       IN-345 30/12/2018 11/01/2019 200,234.00

我希望poppler不要使用所有隐藏的文本gqmr312IN-345

并在一行中返回所有内容。

就像下面的pdf格式一样。

11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00

是否有一种方法可以在python中实现这一目标。

0 个答案:

没有答案