我正在尝试使用pdftotext将.pdf文件转换为文本以便在python中进一步处理文件,但我遇到了以下问题:
它适用于一些.pdf文件,虽然我的某些文件的输出看起来像(这是错误的):
(0)
(0)
(0)
(0)
(0)
(0)
000 0000000 0000000000 0000000 00000 000 00
000000000 0000 0000 0000000 00000000000 00000000
000000 000 0000000 000000.
000 000000 0000000 00000000 0000000 0 00000
00000 00 0000000 000000.
当我看到它时,在我看来,一个0字符代表一个字符。
所以我的问题是,可能出现什么问题?我如何修复pdftotext的输出?