从没有重复的pandas数组到另一个数据结构?

时间:2018-03-26 13:25:53

标签: python

我有一个pandas数据帧,它有~10k列值。 我想得到一个没有重复的数组,但也有一些属性,比如通过索引查找+它的排序!

import pandas as pd
df = pd.read_csv('path',sep=';')
arr = []
for i in df[0].values:
    if i not in arr:
        d.append(i)
由于迭代通过10k元素数组,然后查找元素是否尚未存储在新创建的数组中,然后在条件匹配时追加元素,实际上它非常耗费时间/内存。 我知道set有一个属性,例如不能重复,但我不能通过索引轻松查找元素+它无法排序。 可能还有另一种可能的解决方案吗?

2 个答案:

答案 0 :(得分:2)

您可以使用pandas.DataFrame.drop_duplicates获取更多信息drop_duplicates()

答案 1 :(得分:1)

您正在寻找np.unique:

np.unique(df[0])

或者在大熊猫中改编为.unique()

df[0].unique()