Question

我有一个pandas数据帧，它有~10k列值。我想得到一个没有重复的数组，但也有一些属性，比如通过索引查找+它的排序！

import pandas as pd
df = pd.read_csv('path',sep=';')
arr = []
for i in df[0].values:
    if i not in arr:
        d.append(i)

由于迭代通过10k元素数组，然后查找元素是否尚未存储在新创建的数组中，然后在条件匹配时追加元素，实际上它非常耗费时间/内存。我知道set有一个属性，例如不能重复，但我不能通过索引轻松查找元素+它无法排序。可能还有另一种可能的解决方案吗？

Answer 1

您可以使用pandas.DataFrame.drop_duplicates获取更多信息drop_duplicates()

Answer 2

您正在寻找np.unique：

np.unique(df[0])

或者在大熊猫中改编为.unique()：

df[0].unique()