我正在使用j48树算法挖掘数据集。
我一直试图了解useLaplace
参数的作用。我唯一需要做的就是:
基于LapLace
是否平滑了叶子的数量
这只是WEKA提供的文档。我对此有一些疑问:
我在网上找到的所有内容并没有真正详细说明这个参数实际上在做什么,而只是解释它“开启了拉普拉斯平滑。”
答案 0 :(得分:2)
Provost和Domingos发现频率平滑的叶子概率 估计,例如拉普拉斯校正,可以显着提高决策树的性能。 根据我所读到的,叶子上的计数(我先前句子中的叶子概率)用于确定概率估计,可以通过以下方式定义:
P(属性x为类A |)TruePositive /(TruePositive + FalsePositive)
平滑包括降低树中结果的噪声和误差,以便产生更准确的概率估计。
拉普拉斯是频率平滑校正公式:
PLaplace(属于类别A |属性x)=(T P + 1)/(T P + F P + C)
其中C是数据集中clas的数量。