我正在使用HMM二元模型研究Part of Speech Tagger。我正在使用棕色语料库进行训练。我不清楚棕色语料库的不同标签。示例NN或NN-TL。
我感兴趣的问题类型.. 1. NN和NN-TL有什么区别。 2.我是否应该使用NN和NN-TL作为单独标签训练教练,或者只是移除TL并考虑两者相同(意味着删除非常规标签并仅考虑常规标签)
答案 0 :(得分:1)
标题中出现单词时使用-TL
后缀。对于您的特定应用程序,只需忽略此后缀(以及类似的后缀,例如-HL
)似乎是有道理的。
http://en.wikipedia.org/wiki/Brown_Corpus#Part-of-speech_tags_used对这些惯例进行了简洁的总结。
显然,对于语料库的任何认真使用,你应该仔细阅读完整的手册。