我正在尝试从给定的文本构建一个n-gram马尔可夫模型,然后访问它的转换表,以便我可以计算长度为n(克)的每个单词序列的条件熵。 例如,在2克模型中,在阅读文本语料库之后
“狗追猫猫追猫猫追猫 狗追猫猫追猫猫追猫 狗追猫猫追猫猫追猫 狗追人“ 建立一个内部过渡表,状态“狗追逐”可能会以概率0.9过渡到状态“追逐猫”,并以概率0.1表示“追逐人”。如果我知道可能的转换,我可以计算条件熵。有没有好的python库可以做到这一点?我已经检查了NLTK,SRILM和其他人,但没有找到太多。
答案 0 :(得分:0)
自从最初创建此帖子以来只有短短的4年,而我发现自己也遇到了同样的问题。尽管可以手动执行此操作,但我继续创建了adaptationism package,它提供了 bit 个更多功能!
您不仅可以访问过渡表,还可以对任何N-gram组合进行访问。
随着时间的推移,我将继续构建此工具包,请随时向我提供有关未来功能的建议!