英国许可证号码RUTA实体提取

时间:2018-04-03 14:53:44

标签: text-analysis uima ruta

我一直在开发自由文本分析的概念证明。我为账号,日期,称呼,地址,密码,名称开发的RUTA脚本似乎正常工作。

但我仍然坚持一条规则,我想从文本段落中提取英国格式的许可证号码。我开发的规则似乎在单独作为输入传递时正常工作但由于某种原因它在文本中失败。

任何帮助都会受到高度赞赏,因为我已经习惯了这个问题。

       PACKAGE uima.ruta.example;
       DECLARE VarA;
       DECLARE VarB;
       DECLARE VarC;

       W{REGEXP("^(?i)(a-z){2}") -> MARK(VarA)}
       NUM{REGEXP("..") -> MARK(VarB)}

       W{REGEXP("(?i)(a-z){3}$") -> MARK(VarC),  MARK(EntityType,1,3), UNMARK(VarA), UNMARK(VarB), UNMARK(VarC)};

我期待的格式是 C - 人物 N - 数字

  1. CCNNCCC
  2. CCNN CCC

1 个答案:

答案 0 :(得分:1)

您的问题(或问题)对我来说并不完全清楚。此示例脚本也不起作用(未声明EntityType且正则表达式无效)。

我制作了一个示例脚本。也许这会对你有所帮助:

Simple example script