从Pandas Dataframe读取值时内存泄漏

时间:2017-02-01 21:05:28

标签: python pandas memory-leaks

当从数据帧中复制一个值时,pandas似乎会触发内存泄漏。

在每次迭代开始时,通过从初始数据帧进行复制来创建数据帧。通过从当前数据帧复制单个值来创建第二个变量。

在每次迭代结束时,将删除这两个变量,并打印当前进程使用的内存(每1000次迭代)。 used memory increases

我认为某些时候可能会有一些隐式副本(可能在读取数据帧值时)。

对此问题的快速修复导致在每次迭代时应用垃圾收集器,但这是一个非常昂贵的解决方案:该过程至少慢10倍。

有没有明确解释为什么会出现这个问题?

import os, gc
import psutil, pandas as pd

N_ITER = 100000
DF_SIZE = 10000

# Define the DataFrame
df = pd.DataFrame(index=range(DF_SIZE), columns=['my_col'])
df['my_col'] = range(DF_SIZE)


def memory_usage():
    """Return the memory usage of the current python process."""
    return psutil.Process(os.getpid()).memory_info().rss / 1024 ** 2


if __name__ == '__main__':

    for i in range(N_ITER):
        df_ind = pd.DataFrame(df.copy())
        val = df_ind.at[4242, 'my_col']  # The line that provokes the leak!

        del df_ind, val  # Useless
        # gc.collect()  # Garbage Collector prevents the leak but is slow

        if (i % 1000) == 0:
            print('Iter {}\t {} MB'.format(i, int(memory_usage())))

1 个答案:

答案 0 :(得分:1)

好吧,看起来真正的痛苦来自df_ind的创建方式。

对原始数据框df使用引用似乎有效,但如果我们打算修改df_ind,可能会有点冒险。

使用原始数据框df副本会触发内存泄漏。 df可能存在一些无用元素的隐式副本。这些复制的元素不会被 del 捕获,但会被 gc.collect()捕获。这需要花费时间,因为此操作需要时间。

下面列出了解决此内存泄漏的不同尝试及其结果:

df_ind = df                    # Works! Dangerous since df could be modified

df_ind = copy.copy(df)         # Works! Equivalent to df_ind = df
df_ind = df.copy.deepcopy(df)  # Fails.

df_ind = df.copy(deep=False)   # Works! Equivalent to df_ind = df
df_ind = df.copy(deep=True)    # Fails.

总结一下:

  • 如果想要修改临时数据框,则不要使用pandas 。您可以使用词典或压缩列表来获得所需内容。

  • 如果您不想修改临时数据框,那么使用pandas 并使用显式选项df_ind = df.copy(deep=False)