我一直在开发自由文本分析的概念证明。我为账号,日期,称呼,地址,密码,名称开发的RUTA脚本似乎正常工作。
但我仍然坚持一条规则,我想从文本段落中提取英国格式的许可证号码。我开发的规则似乎在单独作为输入传递时正常工作但由于某种原因它在文本中失败。
任何帮助都会受到高度赞赏,因为我已经习惯了这个问题。
PACKAGE uima.ruta.example;
DECLARE VarA;
DECLARE VarB;
DECLARE VarC;
W{REGEXP("^(?i)(a-z){2}") -> MARK(VarA)}
NUM{REGEXP("..") -> MARK(VarB)}
W{REGEXP("(?i)(a-z){3}$") -> MARK(VarC), MARK(EntityType,1,3), UNMARK(VarA), UNMARK(VarB), UNMARK(VarC)};
我期待的格式是 C - 人物 N - 数字