我正在用Python创建一个Naive Bayes分类器,它能够根据一天的某些天气数据来猜测它是哪个月。
目前平均值和标准偏差用于对月份进行分类,但我认为增加偏度和峰度可能有助于提高准确度。
我目前正在使用scipy.stats.norm.cdf来计算机会,但我似乎无法在Python中找到任何考虑偏斜和峰度的cdf函数。
我觉得我可能无法正确理解偏斜和峰度。偏斜和峰度对cdf函数有影响,因此我预计它们将作为参数给出。
我对偏斜度,峰度和cdf函数的理解是否存在根本性的错误?如果没有,那么我在哪里可以找到Python中的cdf函数的实现,将所有这些参数考虑在内?
答案 0 :(得分:2)
您使用的正态分布(scipy.stats.norm)以及通常用于模拟Naive Bayes中的一维条件分布的正态分布仅由两个参数明确定义 - 其mean
和{{1} }。指定偏度/峰度是没有意义的,因为它们对于您的分布是不变的(特别是峰度为3)。
您正在考虑的可能是Pearson分布,用于适应更多时刻(平均值,标准偏差,偏斜度和峰度)。
http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.pearson3.html