计算电子邮件分类的语言模型的困惑度

时间:2011-03-21 15:38:27

标签: java perl email classification

我的电子邮件语料库中有500个最常出现的单克的功能集。我一直在使用它来根据测试电子邮件中每个单词的出现/缺失使用c5.0对电子邮件进行分类。

现在我需要计算功能集中术语的困惑,并使用它来分类电子邮件。我想知道有没有任何语言建模经验,并且知道如何计算模型的困惑,任何帮助都会很棒!

我应该补充说,我知道可以自动为我做的工具,例如SRILM / CMU-LMtoolkit,但我宁愿自己从头开始作为我最后一年项目的一部分!我只需要提示如何开始...也许链接到“白痴指导困惑计算和使用困惑分类”!!

非常感谢!!

3 个答案:

答案 0 :(得分:2)

CMU course exercise似乎有你想要的。是的,他们建议您使用SRILM,但请参阅“语言模型”部分 - 它指向书籍章节,Microsoft Research的教程和该教程的演示文稿。

希望这有帮助!

答案 1 :(得分:2)

Joshua Goodman(来自MS Research的教程)的“最先进的语言建模”链接现在是: http://research.microsoft.com/apps/pubs/default.aspx?id=68595

答案 2 :(得分:1)

我意识到你问这个问题已经有一段时间了,但是如果你仍然对更广泛的困惑感兴趣(我的意思是自然语言处理,语音识别,词性标注和命名实体识别等),那么我建议您参加当前在Coursera上运行的课程。

以下是网址https://www.coursera.org/course/nlangp