根据同一列下的值屏蔽列中的值-熊猫-相关矩阵

时间:2018-10-04 20:52:38

标签: python pandas pearson-correlation

我有非常愚蠢的设计数据。。。实际上很多数据,我无法更改。我的目标是创建一个不是熊猫计算的关联矩阵。 这已经由其他软件完成了。 如果我将数据读入熊猫,则数据帧如下所示:

        Scores                TESTS   Score1  Score2  Score3   .......
    0   Score1  Pearson-Korrelation   1.000   0.330   0.330
    1   Score1              p_value  NaN      0.05    0.07 
    3   Score2  Pearson-Korrelation   0.330   1.000   0.330
    4   Score2              p_value   0.02    NaN     0.1
    6   Score3  Pearson-Korrelation   0.330   0.330   1.000 
    7   Score3              p_value   0.1     0.05     NaN
    .........

The_p_value属于其正上方的“ Pearson-Korrelation”值。 我要实现的是一种数据结构,其中所有p_value大于0.05或NaN的所有Pearson相关值都设置为NaN。所需结果:

        Scores                TESTS   Score1  Score2  Score3   .......
    0   Score1  Pearson-Korrelation   NaN     0.330   NaN
    1   Score1              p_value   NaN     0.05    0.07 
    3   Score2  Pearson-Korrelation   0.330   NaN      NaN
    4   Score2              p_value   0.02    NaN     0.1
    6   Score3  Pearson-Korrelation   NaN     0.330    NaN 
    7   Score3              p_value   0.1     0.05     NaN
    .........

稍后我想使用以下命令删除所有包含p_values的行:

df = df[df.TESTS != "p_value"]

此后,我想删除整个TESTS列并创建一个与此相似的相关矩阵图:

Link1

Link2

但是我仍然无法确定如何过滤数据...

原则上,理想情况下,我希望对数据进行转换,使其具有与通过以下方式使用熊猫的ibuild函数相同的结构:

df = df.corr()

但是我没有原始数据。这样,我还可以将重要性水平与R相似:

Link3

但是将所有错误p_values数据都设置为NaN的解决方案也可以。

预先感谢

0 个答案:

没有答案