大熊猫DataFrame

时间:2015-10-05 10:21:53

标签: python pandas scipy pdist

我有一个大型数据框(例如15k个对象),其中每一行都是一个对象,而列是数字对象的特征。它的形式为:

df = pd.DataFrame({ 'A' : [0, 0, 1],
                    'B' : [2, 3, 4],
                    'C' : [5, 0, 1],
                    'D' : [1, 1, 0]},
                    columns= ['A','B', 'C', 'D'], index=['first', 'second', 'third'])

我想计算所有对象(行)的成对距离,并且由于其计算效率,读取scipy's pdist()函数是一个很好的解决方案。我可以简单地打电话:

res = pdist(df, 'cityblock')
res
>> array([ 6.,  8.,  4.])

并看到res数组按以下顺序包含距离:[first-second, first-third, second-third]

我的问题是如何以矩阵,数据帧或(不太理想的)dict格式得到这个,所以我确切知道每个距离值属于哪一对,如下所示:

       first second third
first    0      -     -
second   6      0     -
third    8      4     0

最终,我认为将distance matrix作为pandas DataFrame可能很方便,因为我可以在每行应用一些排名和排序操作(例如,找到对象first的前N个最接近的对象)。

1 个答案:

答案 0 :(得分:15)

哦,我在webpage找到了答案。显然,有一个名为squareform()的专用函数。暂时不删除我的问题,以免对其他人有帮助。

from scipy.spatial.distance import squareform
res = pdist(df, 'cityblock')
squareform(res)
pd.DataFrame(squareform(res), index=df.index, columns= df.index)
>>        first  second  third
>>first       0       6      8
>>second      6       0      4
>>third       8       4      0