应用错误收集

时间：2011-03-21 15:38:27

标签： java perl email classification

我的电子邮件语料库中有500个最常出现的单克的功能集。我一直在使用它来根据测试电子邮件中每个单词的出现/缺失使用c5.0对电子邮件进行分类。

现在我需要计算功能集中术语的困惑，并使用它来分类电子邮件。我想知道有没有任何语言建模经验，并且知道如何计算模型的困惑，任何帮助都会很棒！

我应该补充说，我知道可以自动为我做的工具，例如SRILM / CMU-LMtoolkit，但我宁愿自己从头开始作为我最后一年项目的一部分！我只需要提示如何开始...也许链接到“白痴指导困惑计算和使用困惑分类”!!

非常感谢!!

答案 0 :(得分：2)

这CMU course exercise似乎有你想要的。是的，他们建议您使用SRILM，但请参阅“语言模型”部分 - 它指向书籍章节，Microsoft Research的教程和该教程的演示文稿。

希望这有帮助！

答案 1 :(得分：2)

Joshua Goodman（来自MS Research的教程）的“最先进的语言建模”链接现在是： http://research.microsoft.com/apps/pubs/default.aspx?id=68595

答案 2 :(得分：1)

我意识到你问这个问题已经有一段时间了，但是如果你仍然对更广泛的困惑感兴趣（我的意思是自然语言处理，语音识别，词性标注和命名实体识别等），那么我建议您参加当前在Coursera上运行的课程。