Uima Ruta规则低于正则表达式

时间:2017-02-22 06:48:23

标签: machine-learning uima ruta

我需要在下面注明案例。我有文本块和需要获得包含银行的子文本块。例如,下面是一个完整的文本块,我需要注释美国银行作为银行名称。

  • 在下文中描述,以下称为所有者和银行 美国NA,来自
  • 的继任者

银行名称可能有很多案例

  • 美国银行[开始银行]
  • 苏格兰皇家银行[中间银行]
  • 是银行[银行最终]

所以文字需要注释完全取决于银行 到目前为止,我无法编写通用规则来涵盖所有案例,我已经尝试过以下规则

 - Rule 1



     W[0,3] BankNameKeyWord W[0,3] {-> MARK(BANKNAME,1,3)};(looking around bank for 3 words)

 - Rule 2

       W? W? W? BankNameKeyWord W? W? W? {-> MARK(BANKNAME,1,7)};

我正在寻找涵盖所有案例的通用方法。

1 个答案:

答案 0 :(得分:0)

您可以应用以下规则:

(CW[0,3] @BankNameKeyWord SW.ct=="of"? CW[0,3]) {-> MARK(BANKNAME,1,3)};

但这并不能解决您的问题。正如通信所指出的那样,你需要像chunker一样进行一些语言预处理。如果它只是银行名称,您可以考虑使用字典。

免责声明:我是UIMA Ruta的开发者