我想使用基于规则的Matcher
(spaCy版本2.0.12)在由4个字母和4个数字(例如CAPA1234
)组成的文本代码中定位。我正在尝试使用属性为SHAPE
的模式:
pattern = [{'SHAPE': 'XXXXdddd'}]
您可以使用Rule-based Matcher Explorer自己进行测试。
它找到了我期望的代码,但也找到了更长的代码,例如CAPABCD1234
或CAPA1234567
。 XXXX
的意思是 4个大写字母或更多,而dddd
也是如此。
是否存在使形状与文本完全匹配的设置?
答案 0 :(得分:0)
我找到了一种解决方法,可以解决我的问题,但并没有真正解释spaCy为何采用这种方式。我将把问题悬而未决。
使用,
并另外明确指定SHAPE
:
LENGTH
请注意,使用pattern = [{'LENGTH': 8, 'SHAPE': 'XXXXdddd'}]
时,在线资源管理器似乎失败(没有突出显示标记)。在我的机器上工作正常。