假设您有一个数据集,例如this one,其中包含多个看起来像这样的特征(26)(此处显示前9个):
import pandas as pd
df = pd.read_csv(path, index_col=0)
df[df.columns[:9]].head()
有些度量遵循高斯分布,有些遵循指数分布,有些遵循伽马:我可以通过使用scipy检查哪种分布最适合数据来简单地识别它们。
如果这些指标不相关,我可以简单地从每个分布中采样值,就是这样,但是如下面的代码片段所示,它们确实有很大的相关性:
from seaborn import heatmap
heatmap(df.corr())
如果所有这些指标都遵循高斯分布,我可以尝试使用the tools that scipy offers创建一个“简单的”多元高斯分布,但是不得不处理多个分布,我不知道如何将部分分布组合到共轭的。
如何创建部分分布遵循多个分布的共轭分布?
我没有在此处添加数据集的子集,因为我认为这不会提高问题的质量,但是如果需要,我可以提供它。