如何为spaCy的标点功能添加自定义符号?

时间:2019-05-07 09:04:17

标签: python nlp spacy

是否可以添加自定义标点符号(默认标点规则中未包含这些选项)? (https://github.com/explosion/spaCy/blob/develop/spacy/lang/de/punctuation.py

我正在使用spaCy的Matcher类(https://spacy.io/usage/rule-based-matching)和属性“ IS_PUNCT”从我的文本中删除标点符号。

from spacy.matcher import Matcher

# instantiate Matcher
matcher = Matcher(nlp.vocab)

# define pattern
pattern = [{"IS_PUNCT": False}]

# add pattern to matcher
matcher.add("Cleaning", None, pattern)

我想自定义标点符号规则,以便能够删除“ |”从我在Matcher中的文字中获取。

1 个答案:

答案 0 :(得分:2)

您可以通过将drawVertical函数替换为自定义函数来实现此目的,该函数包含描述其他字符的符号列表。

lex_attr_getters[IS_PUNCT]