应用错误收集

时间：2015-11-27 21:26:20

标签： python math statistics cdf kurtosis

我正在用Python创建一个Naive Bayes分类器，它能够根据一天的某些天气数据来猜测它是哪个月。

目前平均值和标准偏差用于对月份进行分类，但我认为增加偏度和峰度可能有助于提高准确度。

我目前正在使用scipy.stats.norm.cdf来计算机会，但我似乎无法在Python中找到任何考虑偏斜和峰度的cdf函数。

我觉得我可能无法正确理解偏斜和峰度。偏斜和峰度对cdf函数有影响，因此我预计它们将作为参数给出。

我对偏斜度，峰度和cdf函数的理解是否存在根本性的错误？如果没有，那么我在哪里可以找到Python中的cdf函数的实现，将所有这些参数考虑在内？

答案 0 :(得分：2)

您使用的正态分布（scipy.stats.norm）以及通常用于模拟Naive Bayes中的一维条件分布的正态分布仅由两个参数明确定义 - 其mean和{{1} }。指定偏度/峰度是没有意义的，因为它们对于您的分布是不变的（特别是峰度为3）。

您正在考虑的可能是Pearson分布，用于适应更多时刻（平均值，标准偏差，偏斜度和峰度）。