为新语言构建POS标记器

时间:2018-04-21 05:45:36

标签: python nlp nltk

我是NLP的新手,我正在尝试为Sinhala语言构建一个POS标记器。是否有任何具体步骤来构建系统?

2 个答案:

答案 0 :(得分:1)

最常见的方法是使用标记数据来训练有监督的机器学习算法。如果您想要关注它,请查看本教程train your own POS tagger,然后,您将需要一个POS标记集和一个语料库,以便以受监督的方式创建一个POS标记器。

另一方面,您可以尝试一些无监督的方法。我发现这种半监督的方法正好适用于僧伽罗HIDDEN MARKOV MODEL BASED PART OF SPEECH TAGGER FOR SINHALA LANGUAGE 。考虑半监督学习是无监督学习的一种变体,因此,您不需要花费大量精力来标记整个语料库,因此需要一些标签。最后,有一些完全没有监督的替代方案可以适应Sinhala。

祝你好运!

答案 1 :(得分:0)

这是使用神经网络进行此操作的一种方法。您需要大量已标有POS标签的样品。然后,您可以使用示例来训练RNN。 RNN的x输入将是令牌(单词)的序列,y输出将是POS标签。 RNN一旦经过培训,就可以用作POS标签。 RNN的良好教程如the ones from WildML值得一读。