spaCy基于规则的Matcher查找令牌的时间长于形状指定的令牌

时间:2018-08-30 13:24:32

标签: nlp spacy

我想使用基于规则的Matcher(spaCy版本2.0.12)在由4个字母和4个数字(例如CAPA1234)组成的文本代码中定位。我正在尝试使用属性为SHAPE的模式:

pattern = [{'SHAPE': 'XXXXdddd'}]

您可以使用Rule-based Matcher Explorer自己进行测试。

它找到了我期望的代码,但也找到了更长的代码,例如CAPABCD1234CAPA1234567XXXX的意思是 4个大写字母或更多,而dddd也是如此。

是否存在使形状与文本完全匹配的设置?

1 个答案:

答案 0 :(得分:0)

我找到了一种解决方法,可以解决我的问题,但并没有真正解释spaCy为何采用这种方式。我将把问题悬而未决。

使用,并另外明确指定SHAPE

LENGTH

请注意,使用pattern = [{'LENGTH': 8, 'SHAPE': 'XXXXdddd'}] 时,在线资源管理器似乎失败(没有突出显示标记)。在我的机器上工作正常。