葡萄牙语标记词:t打破了“ a”和“ o”中的“ ao”

时间:2018-09-04 20:21:39

标签: tokenize

我正在使用Spacy作为葡萄牙语文档的标记生成器(最新版本)。
但是,它在以下句子中犯了一个错误:“ esta quebrando aonde nao devia,separando a e o em ao e aos”。 它在“ a”和“ o”中打破了“ ao”。其他单词(例如“ aonde”(“ a” +“ onde”)和othes(“ aos”等)也发生了同样的情况。 其他奇怪的情况:“àquele”分为“ a”和“ quele”; “às”分为“à”和“ s”。 该问题可以在https://spacy.io/models/pt的“实时测试模型(实验)”中显示。 现在,我用tokenizer.add_special_case添加一些已知的单词。但是我可能不记得所有情况。 可以解决这个问题吗?

1 个答案:

答案 0 :(得分:0)

在我看来,将“ ao”一词分解为两个功能部分:介词和冠词。根据应用程序的不同,很容易按照官方语法的要求将这些部分连接在一起。