标签: python pdf file-conversion pdftotext
我正在尝试使用pdftotext将一些pdf转换为文本,并且正在发生转换,但是一些单词被压在一起了。例如,the 2nd day变成the2nd day,before me变成beforeme,依此类推。为什么会发生这种情况?我该如何消除这些差异?
the 2nd day
the2nd day
before me
beforeme
我尝试使用okular(因为我使用linux)将pdf转换为文本,但这也给了我相同的输出。这很麻烦,因为它严重阻碍了文本提取。