Spacy在管道中包含规则匹配器

时间:2018-02-23 15:41:56

标签: nlp spacy

我的语料库中有一些短语,我需要spacy来忽视(希望避免过度拟合)。它们是相当简单的正则表达式公式,我也可以使用Spacy基于规则的匹配like here的格式编写。

我希望在继续使用NER和TextCat管道之前,将匹配标记为模型中的停用词。我看到如何编写匹配器,但我不确定如何将其合并到我的模型中?我只是将它添加为管道吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

聪明的想法。 在管道中添加规则匹配器应该很容易。自定义组件只是将doc对象作为参数并返回可能已修改的doc对象的函数。因此,基本上,您将执行以下操作: def my_component(doc):     #配对工作在这里     返回文档

但是请记住,Token的is_stop属性不可写,这仅意味着您将无法对其进行更改。您当然可以设置自定义令牌扩展,但是对于NER标签预测,绝不会考虑这一点。

更简单的方法是在创建doc对象之前忽略这些单词。如果您说这些表达式只是正则表达式,那么Matcher对您没有任何好处。

希望它会有所帮助:)