串联重复的大数据帧:MemoryError

时间:2018-10-19 16:35:18

标签: python python-3.x pandas out-of-memory

关注最多:How can I reference the key in the Pandas dataframes within that dictionary?

目标仍然是按会计年度预测收入,我将根据每年获得的收入将收入细分为新的列。我有一些代码(加上一些帮助),使用我放入的字典将几个数据框拉入单个数据框,除了“财政年度”列外,它们都重复了。然后将这些数据帧合并为一个。

我将代码简化如下:

import pandas as pd
columns = ['ID','Revenue','Fiscal Year']
ID = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
Revenue = [1000, 1200, 1300, 100 ,500, 0, 800, 950, 4321, 800]
FY = []
d = {'ID': ID, 'Revenue': Revenue}
df = pd.DataFrame(d)
df['Fiscal Year'] = ''

def df_dict_func(start, end, dataframe):
    date_range = range(start, end + 1)
    dataframe_dict = {}
    for n in date_range:
        sub = dataframe.copy()
        sub['Fiscal Year'] = n
        dataframe_dict[n] = sub
    return dataframe_dict    

df_dict = df_dict_func(2019, 2035, df)
df = pd.concat(df_dict)

该代码非常适合较小的数据集,但是当我将其扩展为大型数据集时,会收到MemoryError。有没有一种更有效的方法来复制代码结果,同时避免出现MemoryError问题?

我得到的错误特别是“ MemoryError”,它在我从pd.concat命令收到任何结果之前就发生了。字典中的每个数据帧都很大(超过500MB)。

0 个答案:

没有答案