只阅读独特的数据熊猫

时间:2014-04-11 14:16:22

标签: python pandas

我有一个巨大的csv数据集,列数很少。其中一列是“Id'”。我想只读取CSV中id的唯一值。是否有可能在熊猫中这样做?

我只想要唯一的ID,但我不想将整个数据集加载到内存中

1 个答案:

答案 0 :(得分:1)

您需要在一个时间点将文件的所有内容放入内存中,没有办法解决这个问题。 (您的计算机如何知道您的ID在磁盘上的位置,而不先加载它们?)

你可以按顺序执行此操作,因此它不会杀死你的RAM:

unique_ids = set()
csv_iter = pd.read_csv('yourfile.csv', iterator=True, chunksize=10000)
for chunk in csv_iter:
    unique_ids.update(chunk['id'])