我正在使用带有python 2.7的dask数据框,并希望从我的df中删除重复的索引值。
使用pandas时我会使用
df = df[~df.index.duplicated(keep = "first")]
它有效
当尝试使用dask数据帧时,我得到
属性错误:'索引'对象没有属性'重复'
我可以重置索引,而不是使用作为索引的列来删除重复但我想尽可能避免使用
我可以使用df.compute()而不是删除重复的索引值但这个df对于内存来说太大了。
如何使用dask dataframe从数据框中删除重复的索引值?
答案 0 :(得分:2)
我认为您需要to_series
将index
转换为Series
,keep='first'
应该省略,因为duplicated
中的默认参数:
df = df[~df.index.to_series().duplicated()]