如何在词性标注的平滑中使用后缀

时间:2014-08-14 14:22:52

标签: nlp pos-tagger

我正在制作#34;词性标记#34;我用后缀处理未知单词。

但主要的问题是我如何决定后缀的数量......如果它是预先确定的(如Weischedel方法),或者我必须采用最后几个字母的单词(如Samuelsson方法)。 / p>

哪种方法会更好......

1 个答案:

答案 0 :(得分:0)

快速谷歌搜索表明,Weischedel方法对于英语来说已经足够了,英语只有基本的形态学变形。在处理变形语言时,Samuelsson方法看起来效果更好(直觉上很有意义)。

A Resource-light Approach to Morpho-syntactic Tagging - Google Books p 9引用:

  

处理未知单词Brants (2000)使用Samuelsson(1993)后缀分析,这似乎最适合变形语言。

(但这与Weischedel的方法没有直接比较。)