我有非常愚蠢的设计数据。。。实际上很多数据,我无法更改。我的目标是创建一个不是熊猫计算的关联矩阵。 这已经由其他软件完成了。 如果我将数据读入熊猫,则数据帧如下所示:
Scores TESTS Score1 Score2 Score3 .......
0 Score1 Pearson-Korrelation 1.000 0.330 0.330
1 Score1 p_value NaN 0.05 0.07
3 Score2 Pearson-Korrelation 0.330 1.000 0.330
4 Score2 p_value 0.02 NaN 0.1
6 Score3 Pearson-Korrelation 0.330 0.330 1.000
7 Score3 p_value 0.1 0.05 NaN
.........
The_p_value属于其正上方的“ Pearson-Korrelation”值。 我要实现的是一种数据结构,其中所有p_value大于0.05或NaN的所有Pearson相关值都设置为NaN。所需结果:
Scores TESTS Score1 Score2 Score3 .......
0 Score1 Pearson-Korrelation NaN 0.330 NaN
1 Score1 p_value NaN 0.05 0.07
3 Score2 Pearson-Korrelation 0.330 NaN NaN
4 Score2 p_value 0.02 NaN 0.1
6 Score3 Pearson-Korrelation NaN 0.330 NaN
7 Score3 p_value 0.1 0.05 NaN
.........
稍后我想使用以下命令删除所有包含p_values的行:
df = df[df.TESTS != "p_value"]
此后,我想删除整个TESTS列并创建一个与此相似的相关矩阵图:
但是我仍然无法确定如何过滤数据...
原则上,理想情况下,我希望对数据进行转换,使其具有与通过以下方式使用熊猫的ibuild函数相同的结构:
df = df.corr()
但是我没有原始数据。这样,我还可以将重要性水平与R相似:
但是将所有错误p_values数据都设置为NaN的解决方案也可以。
预先感谢