在块中使用pandas read_csv时保持索引

时间:2018-01-22 16:07:49

标签: python pandas memory

我遇到了Python 3.4.0的MemoryError问题我试图使用我在这里遇到的技术来解决。在pandas中使用read_csv时,我目前正在使用最终使用iterator = True连接的chunksize = 1000ignore_index = True技术。然而,在这种情况下,我的数据的索引很重要,并且不优选仅编号为0到n-1。从我的concat语句中删除ignore_index时,该文件再次收到MemoryError。我想知道是否有任何方法要么重现索引以匹配不会产生内存错误的新编号索引,或者是一个更好的解决方案,以避免MemoryError同时保留index_col。下面是我试图运行的代码,它成功运行,但再次将索引从“播放器”更改为数字0到n-1。

tp = pd.read_csv(filename, header=0, index_col = 'Player', iterator = True, chunksize = 1000) # use first column as index
df = pd.concat(tp, ignore_index = True)

谢谢大家,如果需要更多信息,请告诉我们。我为这个稍微业余的问题道歉,我对Python很陌生。

0 个答案:

没有答案