在PDF提取时忽略表格

时间:2012-03-27 10:43:14

标签: java pdf pdfbox text-extraction

我正在尝试用Java创建一个文本处理应用程序,它需要文本作为输入。现在我从用户指定的PDF文件中提取此输入。我正在使用PdfBox进行文本提取。我遇到的问题是PDF文件可能包含表格,方程式和特殊符号,因此PdfBox提取的文本在许多地方都包含垃圾。由于这个原因,我的文本处理应用程序无法提供最佳结果。我想知道PDF是否具有表的特定格式,以便我可以到达根级别并在提取时将其排除。此外,在许多场合,提取的文本包含呈现为“?”的未知字符。虽然在实际的PDF中,它们似乎是正常的字母表。我也尝试了其他库 - IText,但结果不尽如人意。简而言之,我想要的只是从PDF文件中提取简单的句子,排除所有其他垃圾。如果有人可以通过建议解决这个问题或其他更好的Java提取库来帮助我,那将是很棒的。感谢。

2 个答案:

答案 0 :(得分:1)

PDF没有“表格”格式。表格由行和文本构成,这就是全部。标记的PDF可能有这样的标记,但这些很少见。

答案 1 :(得分:0)

我最近需要从PDF中提取文本以便在Java中进一步处理 - 我使用了Linux命令 pdftotext - 如果你有这个命令可以选择吗?

编辑:刚看到另一篇关于Apache Tika的帖子 - 它有一个PDF(和许多其他)解析器。可能对你有用。 http://tika.apache.org/