pdf解析为java中的文本

时间:2011-03-07 09:11:07

标签: java pdf ocr pdf-parsing

我有一个阿拉伯语PDF,我想使用Java将其解析为文本文档。我已经尝试了很多次,英语单词解析成功,但阿拉伯语单词没有。

有人可以推荐一个能够正确转换阿拉伯语单词的解决方案吗?

2 个答案:

答案 0 :(得分:2)

有几个图书馆可供考虑。 Apache TikaiTextpdfbox会或多或少地解决您的问题。虽然,我必须为Tika说一句话,因为它支持语言检测,也可以处理其他文档类型。

答案 1 :(得分:1)

我认为你可以使用iText来使用Java进行pdf操作。它也支持阿拉伯语。