为什么pdftotext有时会将单词挤在一起?

时间:2019-09-09 09:28:55

标签: python pdf file-conversion pdftotext

我正在尝试使用pdftotext将一些pdf转换为文本,并且正在发生转换,但是一些单词被压在一起了。例如,the 2nd day变成the2nd daybefore me变成beforeme,依此类推。为什么会发生这种情况?我该如何消除这些差异?

我尝试使用okular(因为我使用linux)将pdf转换为文本,但这也给了我相同的输出。这很麻烦,因为它严重阻碍了文本提取。

0 个答案:

没有答案