使用任何NLP工具从PDF读取表格和图像

时间:2016-05-26 02:47:38

标签: java pdf nlp opennlp

在我的一个NLP作业中,我必须阅读PDF文件并从中提取信息。使用Java我能够从PDF中读取文本内容,并能够在文本中应用我们的NLP算法,但我还需要提取PDF中的表格中的信息,我试图阅读它们但不能正确使用它们格式。任何想法如何从PDF文档中读取表格,或任何提示,如果OpenNLP,GATE,Stanford NLP中有任何库可用于实现这些。

1 个答案:

答案 0 :(得分:1)

不幸的是,作为结构的表不存储在PDF中。您必须应用一些严格的坐标数学来计算/估计表的位置,列的位置以及行的位置。

对于PDF,Apache Tika没有任何特殊的表处理(它适用于MSWord,MSPPT和许多其他格式,但不适用于PDF)。

要从PDF中提取表格作为表格,您可以考虑tabulapdf;另见John Hewson的recommendation。还有一些商业工具可以通过PDF格式提取表格 - Abby Finereader,Nuance * PDF产品。