棕色语料库的常规和非常规标记集之间有什么区别

时间:2014-08-07 09:03:45

标签: nlp corpus

我正在使用HMM二元模型研究Part of Speech Tagger。我正在使用棕色语料库进行训练。我不清楚棕色语料库的不同标签。示例NN或NN-TL。

我感兴趣的问题类型.. 1. NN和NN-TL有什么区别。 2.我是否应该使用NN和NN-TL作为单独标签训练教练,或者只是移除TL并考虑两者相同(意味着删除非常规标签并仅考虑常规标签)

1 个答案:

答案 0 :(得分:1)

标题中出现单词时使用-TL后缀。对于您的特定应用程序,只需忽略此后缀(以及类似的后缀,例如-HL)似乎是有道理的。

http://en.wikipedia.org/wiki/Brown_Corpus#Part-of-speech_tags_used对这些惯例进行了简洁的总结。

显然,对于语料库的任何认真使用,你应该仔细阅读完整的手册。