pandas数据帧的内存使用情况

时间:2018-02-02 16:23:59

标签: mongodb pandas dataframe jupyter-notebook taskmanager

我正在使用pandas数据帧从mongodb数据库加载数据集。数据库集合有大约2百万个条目和25个属性。当我使用数据集加载数据帧并检查数据帧的大小时,它几乎等于1 GB。但是,当我在Windows任务管理器中看到该进程的内存使用量时,它几乎等于8.5 GB。它可能存储了一些元数据,但为什么内存使用量会有这么大的增加呢?(我使用的是jupyter笔记本。)

以下是我正在使用的代码.---->

data=pd.DataFrame()    
curs=coll.find({},dic)    
docs=[]   
cnt=0  
normalized_dataframes=[]  
for doc in curs:      
     docs.append(doc)  
    cnt=cnt+1
    if(cnt%50000==0):
        normalized_dataframe = json_normalize(docs)
        normalized_dataframes.append(normalized_dataframe)
        docs=[]
        print(cnt)
curs.close()
normalized_dataframe = json_normalize(docs)
normalized_dataframes.append(normalized_dataframe)

0 个答案:

没有答案