Spacy:添加新语言时单字母收缩

时间:2018-10-18 16:25:14

标签: spacy

我正在/正在尝试添加语言,尤其是葡萄牙语,但是我对缩略词“à”有疑问。

documentation中说:“组合的ORTH值始终需要与原始字符串匹配。”。但是,葡萄牙语中的“à”一词是介词“ a”与冠词“ a”的紧缩。我尝试添加以下例外:

"à": [
    {ORTH: "à", NORM: "a"},
    {ORTH: "", NORM: "a"}],

因为然后它抱怨空字符串。

如何将这种情况添加到令牌生成器中,以便它可以识别这种特殊情况?这对于POS是必需的。

0 个答案:

没有答案