标签: pdf uima
我有一堆PDF是公司的财务报告。这些财务报告采用表格形式,但具有不同的大小,形状和格式。我想提取当前资产,负债和权益等信息,并将其保存在数据库中。
UIMA可以允许我这样做吗?
我的计划是使用Tika将PDF转换为文本,然后使用UIMA注释这些文本并将这些注释编入索引,如Current Asset,Current Liability。
谢谢你的帮助。
答案 0 :(得分:3)
是的,这是UIMA的一个非常好的用例。一些指示: