Question

我们尝试在英语，意大利语和西班牙语上使用SyntaxNet，并在我们在https://github.com/tensorflow/models/blob/master/syntaxnet/universal.md找到的Universal Dependencies数据集上预先训练模型。

对于意大利语和西班牙语，我们在收缩和阴蒂的标记化水平上遇到了一些问题。收缩是介词和限定词的组合，因此我们希望它们分为两部分。我们注意到，tokeniser总是失败，这意味着对句子的整个分析都会出错。阴蒂也是如此。

我们正在推出如下模型：

MODEL_DIRECTORY=../pretrained/Italian
cat /mnt/test_ita.split | syntaxnet/models/parsey_universal/tokenize.sh \
                        $MODEL_DIRECTORY > /mnt/test_ita.tokenized

下面是我们现在获得的输出示例和我们希望获得的输出示例。

意大利语（SyntaxNet analisys）

1       Sarebbe _       VERB    V       Mood=Cnd|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|fPOS=VERB++V      2       cop     _   _
2       bello   _       ADJ     A       Gender=Masc|Number=Sing|fPOS=ADJ++A     0       ROOT    _       _
3       esserci _       PRON    PE      fPOS=NOUN++S    2       nsubj   _       _
4       .       _       PUNCT   FS      fPOS=PUNCT++FS  2       punct   _       _

意大利语（期望的输出）

1       Sarebbe _       VERB    V       Mood=Cnd|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|fPOS=VERB++V      2       cop     _   _
2       bello   _       ADJ     A       Gender=Masc|Number=Sing|fPOS=ADJ++A     0       ROOT    _       _
3       esser   _       VERB    V       VerbForm=Inf|fPOS=VERB++V       2       csubj   _       _
4       ci      _       PRON    PC      PronType=Clit|fPOS=PRON++PC     3       advmod  _       _

我们如何处理这个问题？提前谢谢。

意大利语和西班牙语的SyntaxNet标记化

0 个答案: