应用错误收集

为什么pdftotext有时会将单词挤在一起？

时间：2019-09-09 09:28:55

标签： python pdf file-conversion pdftotext

我正在尝试使用pdftotext将一些pdf转换为文本，并且正在发生转换，但是一些单词被压在一起了。例如，the 2nd day变成the2nd day，before me变成beforeme，依此类推。为什么会发生这种情况？我该如何消除这些差异？

我尝试使用okular（因为我使用linux）将pdf转换为文本，但这也给了我相同的输出。这很麻烦，因为它严重阻碍了文本提取。

0 个答案:

没有答案