标签: spacy
我正在/正在尝试添加语言,尤其是葡萄牙语,但是我对缩略词“à”有疑问。
在documentation中说:“组合的ORTH值始终需要与原始字符串匹配。”。但是,葡萄牙语中的“à”一词是介词“ a”与冠词“ a”的紧缩。我尝试添加以下例外:
"à": [ {ORTH: "à", NORM: "a"}, {ORTH: "", NORM: "a"}],
因为然后它抱怨空字符串。
如何将这种情况添加到令牌生成器中,以便它可以识别这种特殊情况?这对于POS是必需的。