Question

我需要在下面注明案例。我有文本块和需要获得包含银行的子文本块。例如，下面是一个完整的文本块，我需要注释美国银行作为银行名称。

在下文中描述，以下称为所有者和银行美国NA，来自

银行名称可能有很多案例

美国银行[开始银行]
苏格兰皇家银行[中间银行]
是银行[银行最终] 等

所以文字需要注释完全取决于银行到目前为止，我无法编写通用规则来涵盖所有案例，我已经尝试过以下规则

 - Rule 1



     W[0,3] BankNameKeyWord W[0,3] {-> MARK(BANKNAME,1,3)};(looking around bank for 3 words)

 - Rule 2

       W? W? W? BankNameKeyWord W? W? W? {-> MARK(BANKNAME,1,7)};

我正在寻找涵盖所有案例的通用方法。

Answer 1

您可以应用以下规则：

(CW[0,3] @BankNameKeyWord SW.ct=="of"? CW[0,3]) {-> MARK(BANKNAME,1,3)};

但这并不能解决您的问题。正如通信所指出的那样，你需要像chunker一样进行一些语言预处理。如果它只是银行名称，您可以考虑使用字典。

免责声明：我是UIMA Ruta的开发者

Uima Ruta规则低于正则表达式

1 个答案: