我有一个熊猫数据框,如下所示:
In [5]: import pandas as pd
In [6]: df = pd.DataFrame({'X': [0, 123, 342, 353, 467, 345, 789, 543, 3913],
...: 'Y': [0, 12, 23, 41, 23, 45, 23, 53, 23],
...: 'Group': [0, 1, 2, 0, 1, 2, 0, 1, 2]})
In [7]: df
Out[7]:
X Y Group
0 0 0 0
1 123 12 1
2 342 23 2
3 353 41 0
4 467 23 1
5 345 45 2
6 789 23 0
7 543 53 1
8 3913 23 2
这三组代表测量系列,我想为该系列的每次测量计算到前一个元素的欧几里得距离,并将其与每次测量相加。 (第一测量距离= 0)。
我已经在这里阅读了所有论坛主题,这些主题涉及如何将groupby操作的结果重新分配回父数据帧。但是,在我基于组为数据框的每个条目(而不是合计)计算某些内容的情况下,我找不到任何解决方案。
所以我想知道如何组合这些步骤:
from scipy.spatial.distance import euclidean
# 1. Group data
group = df.groupby('Group')
# 2. Calculate cumulative euclidean distance for each group
group['Distance'] = group.apply(lambda row: euclidean(row['X'], row['Y']).cumsum(), axis=1)
# 3. Assign back to original dataframe
第1步非常简单。对于步骤2,我尝试了df.groupby.apply
和df.groupby.apply.transform
的许多组合以及定义自己的函数(不知道这是否适合一个衬里)。但是我无法真正让它表现出我想要的方式。我假设groupby().transform()
是我想要的,但是我无法使其按行操作。
也为了将结果重新分配到原始数据帧而不是仅分配给groupby对象,我尝试了df.join
,pd.merge
,pd.concat
等,但是现在我处于我非常困惑:D的区别。
我想要的输出是:
Out[7]:
X Y Group Distance Cumulative Distance
0 0 0 0 0 0
1 123 12 1 0 0
2 342 23 2 0 0
3 353 41 0 355.37 355.37
4 467 23 1 344.17 344.17
5 345 45 2 22.20 22.20
6 789 23 0 436.37 791.74
7 543 53 1 81.71 425.88
8 3913 23 2 3568.07 3590.44
我只需要累积距离(再次按组计算)。但是我将个人距离列为中间步骤。
答案 0 :(得分:1)
将groupby
和apply
与shift
一起使用,以获取每一行的上一个点,然后使用bfill
用自身填充第一个点。
然后,用邮政编码X
和Y
一起创建新列。
df.sort_values('Group', inplace=True)
df[['X_shift', 'Y_shift']] = df.groupby('Group')[['X', 'Y']].apply(lambda x: x.shift(1)).bfill()
df['point_1'] = tuple(zip(df.X, df.Y))
df['point_2'] = tuple(zip(df.X_shift, df.Y_shift))
df
X Y Group X_shift Y_shift point_1 point_2
0 0 0 0 0.0 0.0 (0, 0) (0.0, 0.0)
3 353 41 0 0.0 0.0 (353, 41) (0.0, 0.0)
6 789 23 0 353.0 41.0 (789, 23) (353.0, 41.0)
1 123 12 1 123.0 12.0 (123, 12) (123.0, 12.0)
4 467 23 1 123.0 12.0 (467, 23) (123.0, 12.0)
7 543 53 1 467.0 23.0 (543, 53) (467.0, 23.0)
2 342 23 2 342.0 23.0 (342, 23) (342.0, 23.0)
5 345 45 2 342.0 23.0 (345, 45) (342.0, 23.0)
8 3913 23 2 345.0 45.0 (3913, 23) (345.0, 45.0)
然后使用apply
计算每个点的欧几里得距离,然后将groupby
与cumsum
一起使用以获得最终结果。
df['Distance'] = df.apply(lambda row: euclidean(row.point_1, row.point_2), axis=1)
df
X Y Group X_shift Y_shift point_1 point_2 Distance
0 0 0 0 0.0 0.0 (0, 0) (0.0, 0.0) 0.000000
3 353 41 0 0.0 0.0 (353, 41) (0.0, 0.0) 355.373043
6 789 23 0 353.0 41.0 (789, 23) (353.0, 41.0) 436.371401
1 123 12 1 123.0 12.0 (123, 12) (123.0, 12.0) 0.000000
4 467 23 1 123.0 12.0 (467, 23) (123.0, 12.0) 344.175827
7 543 53 1 467.0 23.0 (543, 53) (467.0, 23.0) 81.706793
2 342 23 2 342.0 23.0 (342, 23) (342.0, 23.0) 0.000000
5 345 45 2 342.0 23.0 (345, 45) (342.0, 23.0) 22.203603
8 3913 23 2 345.0 45.0 (3913, 23) (345.0, 45.0) 3568.067824
df['Cumulative Distance'] = df.groupby('Group').Distance.cumsum()
# Drop unuse columns
df.drop(columns=['X_shift', 'Y_shift', 'point_1', 'point_2'], inplace=True)
df.sort_index(inplace=True)
df
X Y Group Distance Cumulative Distance
0 0 0 0 0.000000 0.000000
1 123 12 1 0.000000 0.000000
2 342 23 2 0.000000 0.000000
3 353 41 0 355.373043 355.373043
4 467 23 1 344.175827 344.175827
5 345 45 2 22.203603 22.203603
6 789 23 0 436.371401 791.744445
7 543 53 1 81.706793 425.882620
8 3913 23 2 3568.067824 3590.271428