如何使用hmmlearn对英文文本进行分类?

时间:2017-04-03 07:32:53

标签: python-3.x text-classification markov-models hmmlearn

我想实现一个经典的马尔可夫模型问题:训练MM学习英文文本模式,并使用它来检测英文文本与随机字符串。

我决定使用hmmlearn,所以我不必自己编写。但是我很担心如何训练它。它似乎需要HMM中的组件数量,但英语的合理数量是多少?另外,我可以不做一个简单的高阶马尔可夫模型而不是隐藏吗?据推测,有趣的属性是ngrams的模式,而不是隐藏的状态。

1 个答案:

答案 0 :(得分:0)

hmmlearn专为无监督学习HMM而设计,同时您的问题得到明确监督:给出英语和随机字符串的示例,学会区分这两者。此外,正如您已经正确指出的那样,隐藏状态的概念很难定义文本数据,因此对于您的问题,普通的MM会更合适。我认为你应该能够用Python中的<100行代码实现它们。