在信息增益修剪功能的上下文中alpha的含义是什么?

时间:2017-02-24 17:04:37

标签: r markov-chains pst traminer sequence-analysis

在PST包中,我们使用值C作为用于修剪树的信息增益函数的截止值。对于alpha为0.05的C值计算如下:

C95 <- qchisq(0.95, 1) / 2

C值基于0.05的alpha值是什么意思?是否意味着我们需要至少95%确定附加节点与先前节点相比增加了更多信息,以便通过修剪算法保留它?

1 个答案:

答案 0 :(得分:1)

您的问题涉及在gain="G2"函数中使用prune,并且是关于此增益函数的阈值C的选择。

用于检查分支是否可被修剪的G2增益函数的两倍实际上是比较修剪分支之前和之后树的可能性的似然比检验统计。在假设被测分支不添加任何信息的情况下,统计2 * G2具有卡方分布。因此,当差异不具有统计显着性时,即只要G2值不超过给定显着性水平的阈值,就修剪分支。

alpha是统计测试中常用的重要性。通常为1%或5%。选择alpha = 0.05意味着由于样本的随机性,有5%的机会错误地修剪分支。