列的列表之间的熊猫关联X整个数据帧

时间:2017-08-03 14:28:42

标签: python pandas data-visualization data-science

我正在寻找Pandas .corr()方法的帮助。

按原样,我可以使用.corr()方法计算每个可能的列组合的热图:

corr = data.corr()
sns.heatmap(corr)

在我的23,000列数据框中,可能会在宇宙热死亡附近终止。

我还可以在值的子集之间进行更合理的关联

data2 = data[list_of_column_names]
corr = data2.corr(method="pearson")
sns.heatmap(corr)

这给了我一些我可以使用的东西 - 这是一个示例: Example Heatmap

我想要做的是将20列的列表与整个数据集进行比较。正常的.corr()函数可以给我一个20x20或23,000x23,000的热图,但基本上我想要一个20x23,000的热图。

如何为我的相关性添加更多特异性?

感谢您的帮助!

3 个答案:

答案 0 :(得分:3)

列出所需的子集列表(在此示例中为A,B和C),创建一个空数据帧,然后使用嵌套循环将其填入所需的值。

df = pd.DataFrame(np.random.randn(50, 7), columns=list('ABCDEFG'))

# initiate empty dataframe
corr = pd.DataFrame()
for a in list('ABC'):
    for b in list(df.columns.values):
        corr.loc[a, b] = df.corr().loc[a, b]

corr
Out[137]: 
          A         B         C         D         E         F         G
A  1.000000  0.183584 -0.175979 -0.087252 -0.060680 -0.209692 -0.294573
B  0.183584  1.000000  0.119418  0.254775 -0.131564 -0.226491 -0.202978
C -0.175979  0.119418  1.000000  0.146807 -0.045952 -0.037082 -0.204993

sns.heatmap(corr)

enter image description here

答案 1 :(得分:1)

通常,对所有变量成对地计算相关系数是最有意义的。 pd.corr()是便利函数,用于成对地计算相关系数(对于所有对)。 你也可以用scipy来做它也只对循环中的指定对。

示例:

d=pd.DataFrame([[1,5,8],[2,5,4],[7,3,1]], columns=['A','B','C'])

大熊猫中的一对可能是:

d.corr().loc['A','B']

-0.98782916114726194

等同于scipy:

import scipy.stats
scipy.stats.pearsonr(d['A'].values,d['B'].values)[0]

-0.98782916114726194

答案 2 :(得分:1)

在昨晚完成这个工作后,我得到了以下答案:

#datatable imported earlier as 'data'
#Create a new dictionary
plotDict = {}
# Loop across each of the two lists that contain the items you want to compare
for gene1 in list_1:
    for gene2 in list_2:
        # Do a pearsonR comparison between the two items you want to compare
        tempDict = {(gene1, gene2): scipy.stats.pearsonr(data[gene1],data[gene2])}
        # Update the dictionary each time you do a comparison
        plotDict.update(tempDict)
# Unstack the dictionary into a DataFrame
dfOutput = pd.Series(plotDict).unstack()
# Optional: Take just the pearsonR value out of the output tuple
dfOutputPearson = dfOutput.apply(lambda x: x.apply(lambda x:x[0]))
# Optional: generate a heatmap
sns.heatmap(dfOutputPearson)

与其他答案非常相似,这会产生一个热图(见下文),但它可以缩放以允许20,000x30矩阵,而无需计算整个20,000x20,000组合之间的相关性(因此终止得更快)。 / p>

HeatMap Final