Pdf使用java解析为文本

时间:2011-12-05 10:07:07

标签: java arabic pdf-extraction

我有从pdf文件中提取阿拉伯语文本的相同问题, 如果得到解决方案可以帮助任何人吗? 我曾多次尝试使用pdfbox,但没有结果。

1 个答案:

答案 0 :(得分:0)

从PDF中提取文本时,有几件事可能会出错:

  1. PDF已加密。在这种情况下,您需要密码来提取数据。
  2. PDF格式并不意味着提取文本。因此,pdfbox通常会尝试识别彼此靠近的字符并将它们组合成单词。正如您可以想象的那样,这很容易出错。
  3. 查看this question了解更多信息。