我将很难说明这一点,所以我只包含一些代码并描述我以后需要做的事情:
import pandas as pd
start = [1, 5, 102, 300]
end = [3, 90, 150, 304]
df1 = pd.DataFrame({'start':start, 'end':end})
df2 = pd.DataFrame([0, 3, 10, 14, 100, 101, 102, 113, 300])
df2.columns=["bp_pos"]
因此,对于每个起点对终点,我需要检查df2中的任何值是否在该范围内。如果是这样,我需要从df2中排除该索引。
我正在工作。问题是我有22个df1,每个都有几百万行,而我的df2也有几百万行。对于我的解决方案,这真的很慢,看起来像:
for idx, row in df1.iterrows():
df2 = df2.loc[~((row['start'] <= df2['bp_pos']) &
(row['end'] >= df2['bp_pos']))]
我希望能得到比上面更快的解决方案。您能想到更快的解决方案吗?我正在使用Python 2.7.12,并且接受了Pandas / NumPy解决方案。 (很抱歉,如果上面的代码无法正常工作-我发布的PC上没有Python)
答案 0 :(得分:1)
我会得到一个要排除的值数组,然后使用常规的pandas
索引:
vals = np.concatenate([np.arange(x,y) for x,y in zip(start,end)])
df2[~df2['bp_pos'].isin(vals)]
bp_pos
0 0
1 3
4 100
5 101
进一步说明:vals
最终是您所有范围的数组:
>>> vals
array([ 1, 2, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15,
16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28,
29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,
42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54,
55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80,
81, 82, 83, 84, 85, 86, 87, 88, 89, 102, 103, 104, 105,
106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118,
119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131,
132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144,
145, 146, 147, 148, 149, 300, 301, 302, 303])