dask dataframe drop重复索引值

时间:2017-11-28 14:34:28

标签: python python-2.7 pandas dataframe dask

我正在使用带有python 2.7的dask数据框,并希望从我的df中删除重复的索引值。

使用pandas时我会使用

df = df[~df.index.duplicated(keep = "first")]

它有效

当尝试使用dask数据帧时,我得到

  

属性错误:'索引'对象没有属性'重复'

我可以重置索引,而不是使用作为索引的列来删除重复但我想尽可能避免使用

我可以使用df.compute()而不是删除重复的索引值但这个df对于内存来说太大了。

如何使用dask dataframe从数据框中删除重复的索引值?

1 个答案:

答案 0 :(得分:2)

我认为您需要to_seriesindex转换为Serieskeep='first'应该省略,因为duplicated中的默认参数:

df = df[~df.index.to_series().duplicated()]