根据与另一个数据帧中列的逐行比较来筛选熊猫行的最有效方法?

时间:2018-10-18 22:47:47

标签: python-2.7 pandas numpy

我将很难说明这一点,所以我只包含一些代码并描述我以后需要做的事情:

import pandas as pd

start = [1, 5, 102, 300]
end = [3, 90, 150, 304]

df1 = pd.DataFrame({'start':start, 'end':end})

df2 = pd.DataFrame([0, 3, 10, 14, 100, 101, 102, 113, 300])
df2.columns=["bp_pos"]

因此,对于每个起点对终点,我需要检查df2中的任何值是否在该范围内。如果是这样,我需要从df2中排除该索引。

我正在工作。问题是我有22个df1,每个都有几百万行,而我的df2也有几百万行。对于我的解决方案,这真的很慢,看起来像:

for idx, row in df1.iterrows():
    df2 = df2.loc[~((row['start'] <= df2['bp_pos']) &
                   (row['end'] >= df2['bp_pos']))]

我希望能得到比上面更快的解决方案。您能想到更快的解决方案吗?我正在使用Python 2.7.12,并且接受了Pandas / NumPy解决方案。 (很抱歉,如果上面的代码无法正常工作-我发布的PC上没有Python)

1 个答案:

答案 0 :(得分:1)

我会得到一个要排除的值数组,然后使用常规的pandas索引:

vals = np.concatenate([np.arange(x,y) for x,y in zip(start,end)])

df2[~df2['bp_pos'].isin(vals)]

   bp_pos
0       0
1       3
4     100
5     101

进一步说明:vals最终是您所有范围的数组:

>>> vals
array([  1,   2,   5,   6,   7,   8,   9,  10,  11,  12,  13,  14,  15,
        16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,  27,  28,
        29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,  40,  41,
        42,  43,  44,  45,  46,  47,  48,  49,  50,  51,  52,  53,  54,
        55,  56,  57,  58,  59,  60,  61,  62,  63,  64,  65,  66,  67,
        68,  69,  70,  71,  72,  73,  74,  75,  76,  77,  78,  79,  80,
        81,  82,  83,  84,  85,  86,  87,  88,  89, 102, 103, 104, 105,
       106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118,
       119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131,
       132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144,
       145, 146, 147, 148, 149, 300, 301, 302, 303])