词性标注器中的未知单词处理

时间:2014-08-15 16:51:52

标签: nlp

应用未知单词处理的正确方法是什么.....

我很困惑,首先我要检查这个单词是以Capital开头还是先检查后缀?

我应该从语料库中收集大写单词作为名词的知识,还是盲目地为它们指定名词标记....

最好接近什么?

3 个答案:

答案 0 :(得分:2)

你的问题可能过于宽泛而无法正确回答,但考虑到你的抽象程度,在决定“它取决于”时,需要考虑以下几点。

资本化不是一个好的普遍策略,因为不同的语言有不同的大写规范。在德语中,每个正确拼写的名词都用大写字母书写,而有些语言根本不区分大写和小写(有些文字缺乏这种区别 - 阿拉伯语,希伯来语,泰语,梵文,更不用说远东文字了这当然是一个完全不同的挑战。)

在英语中,很明显,大写是一个很好的指标,你可能正在寻找一个专有名词,但缺少大写并不能帮助你决定正确的POS。

后缀匹配是决定未知单词POS的众多可能类别之一。您选择的措辞 - “后缀” - 意味着您对单词构成的理解非常简单。有些语言有后缀派生和变形,但还有很多其他模式。斯瓦希里语变形使用前缀,阿拉伯语和希伯来语使用中缀(但是没有标记正文),有些语言通过重复表示复数等。

虽然它不再是最先进的技术,但是Brill tagger的观察可能是更好地理解可能策略的良好开端。

竞争方法是使用句法约束来消除每个单词的作用。 constraint grammar的一个应用是使用周围单词的POS标签来决定最不可能读取模糊或未知单词。

答案 1 :(得分:0)

您是否正在尝试编写自己的POS-tagger?

如果没有,我建议您使用Stanford POS-tagger或其他一些开源软件。它将尝试为句子中的每个单词指定正确的POS标签。你可以在这里下载:

http://nlp.stanford.edu/software/tagger.shtml

答案 2 :(得分:0)

This paper提供了一种简单的基于词典的标记未知单词的方法。它表明,基于词典的方法获得了13种语言的未知单词的有希望的标记结果,包括保加利亚语,捷克语,荷兰语,英语,法语,德语,印地语,意大利语,葡萄牙语,西班牙语,瑞典语,泰语和越南语。

此外,您还可以在纸上找到13种语言中3 POS和形态标记的准确度结果(已知单词和未知单词)。