标签: pdf pdfbox apache-tika pypdf2
我无法将阿拉伯PDF解析为纯文本。每当尝试混合使用符号时,我都尝试过Apache Tika,PDFBox(包括Java和Python)以及一些不太流行的工具(如PyPDF2)。对于PDFBox,我使用了RTL语言link文档中的提示,但没有用。 该示例如下所示:
原始PDF:
生成的文本:
在拉丁语出现的每一行中顺序都会改变。有人遇到过类似的问题并解决了吗?
感谢帮助!