使用scipy.stats使数据符合自定义分布

时间:2018-09-06 15:51:40

标签: python numpy scipy statistics

因此,我注意到scipy中没有实现Skewed generalized t distribution。对我来说,将其分配给我拥有的某些数据将非常有用。不幸的是,fit对于我来说似乎不起作用。为了进一步解释,我已经像这样实现了

import numpy as np
import pandas as pd
import scipy.stats as st
from scipy.special import beta

class sgt(st.rv_continuous):

    def _pdf(self, x, mu, sigma, lam, p, q):

        v = q ** (-1 / p) * \
            ((3 * lam ** 2 + 1) * (
                    beta(3 / p, q - 2 / p) / beta(1 / p, q)) - 4 * lam ** 2 *
             (beta(2 / p, q - 1 / p) / beta(1 / p, q)) ** 2) ** (-1 / 2)

        m = 2 * v * sigma * lam * q ** (1 / p) * beta(2 / p, q - 1 / p) / beta(
            1 / p, q)

        fx = p / (2 * v * sigma * q ** (1 / p) * beta(1 / p, q) * (
                abs(x - mu + m) ** p / (q * (v * sigma) ** p) * (
                lam * np.sign(x - mu + m) + 1) ** p + 1) ** (
                          1 / p + q))

        return fx

    def _argcheck(self, mu, sigma, lam, p, q):

        s = sigma > 0
        l = -1 < lam < 1
        p_bool = p > 0
        q_bool = q > 0

        all_bool = s & l & p_bool & q_bool

        return all_bool

这一切正常,我可以生成具有给定参数的随机变量,没有问题。需要使用_argcheck作为简单的正参数,仅检查不适用。

sgt_inst = sgt(name='sgt')
vars = sgt_inst.rvs(mu=1, sigma=3, lam = -0.1, p = 2, q = 50, size = 100)

但是,当我尝试使用fit这些参数时,我会得到一个错误

sgt_inst.fit(vars)
  

RuntimeWarning:在减法中遇到无效的值
  numpy.max(numpy.abs(fsim [0]-fsim [1:]))<= fatol):

它只是返回

我感到奇怪的是,当我实现docs中所示的示例自定义高斯分布时,运行fit方法没有问题。

有什么想法吗?

1 个答案:

答案 0 :(得分:2)

fit文档字符串说,

  

拟合的初始估计值由输入参数给出;对于未提供初始估计的任何参数,将调用self._fitstart(data)来生成这样的参数。

调用sgt_inst._fitstart(data)会返回(1.0, 1.0, 1.0, 1.0, 1.0, 0, 1)(前五个是形状参数,后两个是loc和scale)。 _fitstart似乎不是一个复杂的过程。它选择的参数l不符合您的argcheck要求。

结论:为fit提供您自己的起始参数,例如

sgt_inst.fit(data, 0.5, 0.5, -0.5, 2, 10)

为我的随机数据返回(1.4587093459289049, 5.471769032259468, -0.02391466905874927, 7.07289326147152 4, 0.741434497805832, -0.07012808188413872, 0.5308181287869771)