用于语言建模的交叉熵

时间:2011-03-10 09:56:15

标签: perl text classification entropy

我目前正致力于使用语言建模的分类任务。该项目的第一部分涉及使用n-gram语言模型使用c5.0对文档进行分类。项目的最后部分要求我使用交叉熵对每个类进行建模,并根据这些模型对测试用例进行分类。

是否有人有使用交叉熵的经验,或者有关如何使用交叉熵模型对数据进行采样的信息链接?任何信息都会很棒!感谢

1 个答案:

答案 0 :(得分:1)

您可以在各种教科书上使用交叉熵与语言模型获得理论背景,例如: Jurafsky& Sons的“言语和语言处理”。马丁,第二版第116-118页。 至于具体用法,在大多数语言建模工具中,交叉熵不是直接测量的,而是“困惑”,即交叉熵的exp。反过来,困惑可用于对文档进行分类。看,例如SLM中命令'evallm'的文档,Carnegie-Melon大学语言建模工具(http://www.speech.cs.cmu.edu/SLM/toolkit_documentation.html)

祝你好运:)