是否可以添加自定义标点符号(默认标点规则中未包含这些选项)? (https://github.com/explosion/spaCy/blob/develop/spacy/lang/de/punctuation.py)
我正在使用spaCy的Matcher类(https://spacy.io/usage/rule-based-matching)和属性“ IS_PUNCT”从我的文本中删除标点符号。
from spacy.matcher import Matcher
# instantiate Matcher
matcher = Matcher(nlp.vocab)
# define pattern
pattern = [{"IS_PUNCT": False}]
# add pattern to matcher
matcher.add("Cleaning", None, pattern)
我想自定义标点符号规则,以便能够删除“ |”从我在Matcher中的文字中获取。
答案 0 :(得分:2)
您可以通过将drawVertical
函数替换为自定义函数来实现此目的,该函数包含描述其他字符的符号列表。
lex_attr_getters[IS_PUNCT]