我有一个大型数据框(例如15k个对象),其中每一行都是一个对象,而列是数字对象的特征。它的形式为:
df = pd.DataFrame({ 'A' : [0, 0, 1],
'B' : [2, 3, 4],
'C' : [5, 0, 1],
'D' : [1, 1, 0]},
columns= ['A','B', 'C', 'D'], index=['first', 'second', 'third'])
我想计算所有对象(行)的成对距离,并且由于其计算效率,读取scipy's pdist()函数是一个很好的解决方案。我可以简单地打电话:
res = pdist(df, 'cityblock')
res
>> array([ 6., 8., 4.])
并看到res
数组按以下顺序包含距离:[first-second, first-third, second-third]
。
我的问题是如何以矩阵,数据帧或(不太理想的)dict格式得到这个,所以我确切知道每个距离值属于哪一对,如下所示:
first second third
first 0 - -
second 6 0 -
third 8 4 0
最终,我认为将distance matrix作为pandas DataFrame可能很方便,因为我可以在每行应用一些排名和排序操作(例如,找到对象first
的前N个最接近的对象)。
答案 0 :(得分:15)
哦,我在webpage找到了答案。显然,有一个名为squareform()的专用函数。暂时不删除我的问题,以免对其他人有帮助。
from scipy.spatial.distance import squareform
res = pdist(df, 'cityblock')
squareform(res)
pd.DataFrame(squareform(res), index=df.index, columns= df.index)
>> first second third
>>first 0 6 8
>>second 6 0 4
>>third 8 4 0