我正在使用Spacy作为葡萄牙语文档的标记生成器(最新版本)。
但是,它在以下句子中犯了一个错误:“ esta quebrando aonde nao devia,separando a e o em ao e aos”。
它在“ a”和“ o”中打破了“ ao”。其他单词(例如“ aonde”(“ a” +“ onde”)和othes(“ aos”等)也发生了同样的情况。
其他奇怪的情况:“àquele”分为“ a”和“ quele”; “às”分为“à”和“ s”。
该问题可以在https://spacy.io/models/pt的“实时测试模型(实验)”中显示。
现在,我用tokenizer.add_special_case添加一些已知的单词。但是我可能不记得所有情况。
可以解决这个问题吗?
答案 0 :(得分:0)
在我看来,将“ ao”一词分解为两个功能部分:介词和冠词。根据应用程序的不同,很容易按照官方语法的要求将这些部分连接在一起。