我们尝试在英语,意大利语和西班牙语上使用SyntaxNet,并在我们在https://github.com/tensorflow/models/blob/master/syntaxnet/universal.md找到的Universal Dependencies数据集上预先训练模型。
对于意大利语和西班牙语,我们在收缩和阴蒂的标记化水平上遇到了一些问题。收缩是介词和限定词的组合,因此我们希望它们分为两部分。我们注意到,tokeniser总是失败,这意味着对句子的整个分析都会出错。阴蒂也是如此。
我们正在推出如下模型:
MODEL_DIRECTORY=../pretrained/Italian
cat /mnt/test_ita.split | syntaxnet/models/parsey_universal/tokenize.sh \
$MODEL_DIRECTORY > /mnt/test_ita.tokenized
下面是我们现在获得的输出示例和我们希望获得的输出示例。
意大利语(SyntaxNet analisys)
1 Sarebbe _ VERB V Mood=Cnd|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|fPOS=VERB++V 2 cop _ _
2 bello _ ADJ A Gender=Masc|Number=Sing|fPOS=ADJ++A 0 ROOT _ _
3 esserci _ PRON PE fPOS=NOUN++S 2 nsubj _ _
4 . _ PUNCT FS fPOS=PUNCT++FS 2 punct _ _
意大利语(期望的输出)
1 Sarebbe _ VERB V Mood=Cnd|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|fPOS=VERB++V 2 cop _ _
2 bello _ ADJ A Gender=Masc|Number=Sing|fPOS=ADJ++A 0 ROOT _ _
3 esser _ VERB V VerbForm=Inf|fPOS=VERB++V 2 csubj _ _
4 ci _ PRON PC PronType=Clit|fPOS=PRON++PC 3 advmod _ _
我们如何处理这个问题?提前谢谢。