我正在寻找一种有效的方法来计算dask数据帧中所有行的差异(首选),或者在pandas df中任何一种有效的方法。我有一个拥有数百万行的巨大文件,要像计算它一样永远。例如:
d = {'A': [5, 9, 15, 0, 2], 'B': [7, 6, 3, 1, 4], 'C': [8, 11, 2, 5, 3]}
df = pd.DataFrame(data=d, index=['i1', 'i2', 'i3', 'i4', 'i5'])
print(df)
tmp = pd.DataFrame(columns=['A', 'B', 'C'])
row_pointer = 1
for index, row in df.iterrows():
for i, r in df.iloc[row_pointer:].iterrows():
tmp.loc['(' + index + ' - ' + i + ')'] = df.loc[index] - df.loc[i]
row_pointer += 1
print(tmp)
输出:
A B C
i1 5 7 8
i2 9 6 11
i3 15 3 2
i4 0 1 5
i5 2 4 3
A B C
(i1 - i2) -4 1 -3
(i1 - i3) -10 4 6
(i1 - i4) 5 6 3
(i1 - i5) 3 3 5
(i2 - i3) -6 3 9
(i2 - i4) 9 5 6
(i2 - i5) 7 2 8
(i3 - i4) 15 2 -3
(i3 - i5) 13 -1 -1
(i4 - i5) -2 -3 2
答案 0 :(得分:3)
使用广播进行所有减法。然后使用<
进行子集运算,以获取所有唯一组合。
import pandas as pd
import numpy as np
arr = df.to_numpy()
res = pd.DataFrame(np.vstack(arr[:, None]-arr),
index=pd.MultiIndex.from_product([df.index, df.index]))
res = res[res.index.get_level_values(0) < res.index.get_level_values(1)]
print(res)
0 1 2
i1 i2 -4 1 -3
i3 -10 4 6
i4 5 6 3
i5 3 3 5
i2 i3 -6 3 9
i4 9 5 6
i5 7 2 8
i3 i4 15 2 -3
i5 13 -1 -1
i4 i5 -2 -3 2
对于数百万行来说,这是行不通的。或者,删除一级循环:
from itertools import chain
arr = df.to_numpy()
data = [(arr[i, None]-arr)[i+1:] for i in range(np.shape(arr)[0])]
idx = pd.MultiIndex.from_product([df.index, df.index])
idx = idx[idx.get_level_values(0) < idx.get_level_values(1)]
res = pd.DataFrame(chain.from_iterable(data), index=idx)
答案 1 :(得分:1)
我使用了dask数组来获取输出:
arr = df.to_numpy()
x = da.from_array(arr, chunks=(100))
diff = abs(x[:, None] - x)
diff[0:1000].compute()
diff[1000:2000].compute()
diff[2000:3000].compute()
我使用Dask惰性计算来生成大于存储阵列的结果。