我的PDF格式如下
**Cutomer PO number Invoice Date1 Date2 Currency**
11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00
所以我将pdf转换为文本。
pdftotext -layout -f sample.pdf sample.txt
这是问题所在,该行溢出到下一行,如下所示。
11235 po-689573/gqmr312
IN-345 30/12/2018 11/01/2019 200,234.00
我希望poppler不要使用所有隐藏的文本gqmr312
和IN-345
。
并在一行中返回所有内容。
就像下面的pdf格式一样。
11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00
是否有一种方法可以在python中实现这一目标。