朴素贝叶斯分类器中的Python偏度和峰度

时间:2015-11-27 21:26:20

标签: python math statistics cdf kurtosis

我正在用Python创建一个Naive Bayes分类器,它能够根据一天的某些天气数据来猜测它是哪个月。

目前平均值和标准偏差用于对月份进行分类,但我认为增加偏度和峰度可能有助于提高准确度。

我目前正在使用scipy.stats.norm.cdf来计算机会,但我似乎无法在Python中找到任何考虑偏斜和峰度的cdf函数。

我觉得我可能无法正确理解偏斜和峰度。偏斜和峰度对cdf函数有影响,因此我预计它们将作为参数给出。

我对偏斜度,峰度和cdf函数的理解是否存在根本性的错误?如果没有,那么我在哪里可以找到Python中的cdf函数的实现,将所有这些参数考虑在内?

1 个答案:

答案 0 :(得分:2)

您使用的正态分布(scipy.stats.norm)以及通常用于模拟Naive Bayes中的一维条件分布的正态分布仅由两个参数明确定义 - 其mean和{{1} }。指定偏度/峰度是没有意义的,因为它们对于您的分布是不变的(特别是峰度为3)。

您正在考虑的可能是Pearson分布,用于适应更多时刻(平均值,标准偏差,偏斜度和峰度)。

http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.pearson3.html