我们需要使用Apache UIMA跟踪非结构化文档中的“地址”数据。 地址可以来自任何地理位置。 英国地理的一些样本地址如下。 190 Stanley road Llanddoged Conwy LL26 6CM 227,Sankey street,Bourne,Lincolnshire,PE10 1LW
如果您可以共享可能的注释,以便从非结构化文档中识别地址数据,将会很有帮助。
答案 0 :(得分:1)
我建议您使用RUTA workbench编写规则来提取地址。它将真正加速并简化您与UIMA的合作。
答案 1 :(得分:1)
有两种方法(示例涉及UIMA特定工具):
最适合您的方法取决于您的要求。许多人认为统计模型总体上优于基于规则的方法。但是,编写一些规则有时比注释足够的示例更快。
(我是UIMA Ruta的开发人员)