Dask:按索引从Dataframe中的子集(或丢弃)行

时间:2017-11-18 01:31:20

标签: python dask

我想基于一组索引键获取Dask数据帧的一部分行。 (具体来说,我想找到ddf1的行,其索引不在ddf2的索引中。)

diff = cache[should_keep_bool_array] select * from table where completed > follow_ups select * from table where completed = follow_ups 都会抛出NotImplementedException或者无法正常工作。

这样做的最佳方式是什么?

2 个答案:

答案 0 :(得分:0)

我不确定这是"最好的"方式,但这是我最终如何做到的:

  1. 创建一个Pandas DataFrame,其索引是我想要保留的一系列索引键(例如pd.DataFrame(index=overlap_list)
  2. 内部加入Dask Dataframe

答案 1 :(得分:0)

另一种可能性是:

df_index = df.reset_index()
df_index = df_index.dorp_dplicates()