信息提取 - 业务文档

时间:2013-06-22 15:06:13

标签: xml-parsing machine-learning wrapper information-retrieval information-extraction

我目前正在尝试提取信息,例如发票或收款人来自商业文件,如票据。这些文档使用ocr软件处理成xml文件,因此它们使用格式化特征进行注释。我希望在使用发件人和收件人等功能手动注释一个类似文档后从新文档中提取特定信息。

所以我的问题是,如果有一种学习或匹配算法能够通过仅与一个或两个类似文档的例子进行比较来提取特定数据。如果是:是否有某种程度的java框架能够做到这一点?

谢天谢地

maggu

1 个答案:

答案 0 :(得分:0)

如果XML结构始终相同(使用相同的模板):

只需保存信息所在的所选节点的XML父节点,以便了解信息的路径。不应该是一个问题 - 琐碎的任务。


如果您必须搜索信息:

它可以通过创建某些特征提取规则,然后使用该功能来训练支持向量机来检测信息所在的区域。

我曾问过类似的问题Algorithm to match natural text in mail

但这远非微不足道,肯定需要一两个以上的培训文件。