Question

我正在使用带有python 2.7的dask数据框，并希望从我的df中删除重复的索引值。

使用pandas时我会使用

df = df[~df.index.duplicated(keep = "first")]

它有效

当尝试使用dask数据帧时，我得到

属性错误：＆＃39;索引＆＃39;对象没有属性＆＃39;重复＆＃39;

我可以重置索引，而不是使用作为索引的列来删除重复但我想尽可能避免使用

我可以使用df.compute（）而不是删除重复的索引值但这个df对于内存来说太大了。

如何使用dask dataframe从数据框中删除重复的索引值？

Answer 1

我认为您需要to_series将index转换为Series，keep='first'应该省略，因为duplicated中的默认参数：

df = df[~df.index.to_series().duplicated()]