使用UIMA从PDF中提取数据

时间:2014-06-05 05:51:46

标签: pdf uima

我有一堆PDF是公司的财务报告。这些财务报告采用表格形式,但具有不同的大小,形状和格式。我想提取当前资产,负债和权益等信息,并将其保存在数据库中。

UIMA可以允许我这样做吗?

我的计划是使用Tika将PDF转换为文本,然后使用UIMA注释这些文本并将这些注释编入索引,如Current Asset,Current Liability。

谢谢你的帮助。

1 个答案:

答案 0 :(得分:3)

是的,这是UIMA的一个非常好的用例。一些指示:

  • DKPro Core已经有PDF reader使用PDFbox
  • 如果PDFbox不符合您的要求,我发现PdfTextStream效果很好
  • 您应该查看RUTA workbench来编写提取信息的规则。它将真正加速并简化您与UIMA的合作。