我正在使用hunspell进行拼写检测。根据{{3}},当词典定义了规则时,可以正确处理针对某种语言的词缀。对于意大利语字典it_IT
,我的介词all
在像all'orizzonte
这样的句子中有问题,其输出就像
{
"word": "all",
"stems": [],
"suggestion": [
"al",
"alla",
"allo",
"alle",
"hall",
"ala",
"ali",
"alo",
"alt",
"alò",
"alé",
"al l"
],
"correct": false,
"analysis": []
},
{
"word": "orizzonte",
"stems": [
"orizzonte"
],
"suggestion": [],
"correct": true,
"analysis": [
" st:orizzonte"
]
}
请注意,此处的analysis
不会返回任何形态分析结果。
这在其他情况下也可以使用,例如在句子un'aquilone
中,将正确检测到不确定的文章un
{
"word": "un",
"stems": [
"un"
],
"suggestion": [],
"correct": true,
"analysis": [
" st:un"
]
},
{
"word": "aquilone",
"stems": [
"aquilone"
],
"suggestion": [],
"correct": true,
"analysis": [
" st:aquilone"
]
}
我正在使用积极的令牌生成器以及用于意大利语的变音符号的自定义规则,因此它将以正确的方式拆分令牌,即all'orizzonte
变为[all
,orizzonte
],当un'aquilone
变成['un', 'aquilone']
时-注意:这不是TreeToken之类的令牌生成器
我已经检查了it_IT
的词缀字典,并且可以看到all
的词缀字典
PFX T 0 all' [aeiouhAEIOUH]
PFX T a all'A a
PFX T e all'E e
PFX T i all'I i
PFX T o all'O o
PFX T u all'U u
PFX T h all'H h
喜欢un
:
PFX U 0 un' [aeiouhAEIOUH]
PFX U a un'A a
PFX U e un'E e
PFX U i un'I i
PFX U o un'O o
PFX U u un'U u
PFX U h un'H h
因此,我假设all
应该可以,但是不能。