标签: java pdf ocr pdf-parsing
我有一个阿拉伯语PDF,我想使用Java将其解析为文本文档。我已经尝试了很多次,英语单词解析成功,但阿拉伯语单词没有。
有人可以推荐一个能够正确转换阿拉伯语单词的解决方案吗?
答案 0 :(得分:2)
有几个图书馆可供考虑。 Apache Tika,iText或pdfbox会或多或少地解决您的问题。虽然,我必须为Tika说一句话,因为它支持语言检测,也可以处理其他文档类型。
答案 1 :(得分:1)
我认为你可以使用iText来使用Java进行pdf操作。它也支持阿拉伯语。