我有一个pandas数据帧,它有~10k列值。 我想得到一个没有重复的数组,但也有一些属性,比如通过索引查找+它的排序!
import pandas as pd
df = pd.read_csv('path',sep=';')
arr = []
for i in df[0].values:
if i not in arr:
d.append(i)
由于迭代通过10k元素数组,然后查找元素是否尚未存储在新创建的数组中,然后在条件匹配时追加元素,实际上它非常耗费时间/内存。
我知道set有一个属性,例如不能重复,但我不能通过索引轻松查找元素+它无法排序。
可能还有另一种可能的解决方案吗?