将阿拉伯文PDF解析为纯文本

时间:2019-03-19 16:13:26

标签: pdf pdfbox apache-tika pypdf2

我无法将阿拉伯PDF解析为纯文本。每当尝试混合使用符号时,我都尝试过Apache Tika,PDFBox(包括Java和Python)以及一些不太流行的工具(如PyPDF2)。对于PDFBox,我使用了RTL语言link文档中的提示,但没有用。 该示例如下所示:

原始PDF: enter image description here

生成的文本: enter image description here

在拉丁语出现的每一行中顺序都会改变。有人遇到过类似的问题并解决了吗?

感谢帮助!

0 个答案:

没有答案