来自相关数据点的近似共轭分布,使用python

时间:2019-05-29 13:55:41

标签: python pandas scipy statistics

假设您有一个数据集,例如this one,其中包含多个看起来像这样的特征(26)(此处显示前9个):

import pandas as pd
df = pd.read_csv(path, index_col=0)
df[df.columns[:9]].head()

Dataset preview

有些度量遵循高斯分布,有些遵循指数分布,有些遵循伽马:我可以通过使用scipy检查哪种分布最适合数据来简单地识别它们。

如果这些指标不相关,我可以简单地从每个分布中采样值,就是这样,但是如下面的代码片段所示,它们确实有很大的相关性:

from seaborn import heatmap
heatmap(df.corr())

Correlation heatmap

如果所有这些指标都遵循高斯分布,我可以尝试使用the tools that scipy offers创建一个“简单的”多元高斯分布,但是不得不处理多个分布,我不知道如何将部分分布组合到共轭的。

如何创建部分分布遵循多个分布的共轭分布?

我没有在此处添加数据集的子集,因为我认为这不会提高问题的质量,但是如果需要,我可以提供它。

0 个答案:

没有答案