应用错误收集

将阿拉伯文PDF解析为纯文本

时间：2019-03-19 16:13:26

标签： pdf pdfbox apache-tika pypdf2

我无法将阿拉伯PDF解析为纯文本。每当尝试混合使用符号时，我都尝试过Apache Tika，PDFBox（包括Java和Python）以及一些不太流行的工具（如PyPDF2）。对于PDFBox，我使用了RTL语言link文档中的提示，但没有用。该示例如下所示：

原始PDF：

生成的文本：

在拉丁语出现的每一行中顺序都会改变。有人遇到过类似的问题并解决了吗？

感谢帮助！

0 个答案:

没有答案