输出以阿拉伯文为文本的PDF

时间:2018-06-28 07:13:08

标签: pdf text right-to-left

我负责将包含波斯语(波斯语)的PDF转换为文本。我自然而然地转向pdfminer来实现这一点,但是效果并不理想,并且提取的波斯语与PDF中的波斯语不同。它看起来是正确的(因为我不知道字母),但是可以阅读的人说还有多余的字母。

我怀疑这可能是所有从右到左的书面文字出现的问题。

为了节省别人的时间,这是我所做的事情(我在下面自己回答-欢迎其他回答)。

让我将此问题作为一个问题,以符合SO准则:

  • PDFMiner无法处理pdf2text波斯语(波斯语)文档。还有什么选择?

示例位于https://www.humanservices.gov.au/individuals/information-in-your-language下。具体来说,我在看:

1 个答案:

答案 0 :(得分:0)

我安装了Poppler-https://en.wikipedia.org/wiki/Poppler_(software),并使用了pdftotext

mac$ brew install poppler
mac$ pdftotext file.pdf file.txt