我正在使用pandas数据帧从mongodb数据库加载数据集。数据库集合有大约2百万个条目和25个属性。当我使用数据集加载数据帧并检查数据帧的大小时,它几乎等于1 GB。但是,当我在Windows任务管理器中看到该进程的内存使用量时,它几乎等于8.5 GB。它可能存储了一些元数据,但为什么内存使用量会有这么大的增加呢?(我使用的是jupyter笔记本。)
以下是我正在使用的代码.---->
data=pd.DataFrame()
curs=coll.find({},dic)
docs=[]
cnt=0
normalized_dataframes=[]
for doc in curs:
docs.append(doc)
cnt=cnt+1
if(cnt%50000==0):
normalized_dataframe = json_normalize(docs)
normalized_dataframes.append(normalized_dataframe)
docs=[]
print(cnt)
curs.close()
normalized_dataframe = json_normalize(docs)
normalized_dataframes.append(normalized_dataframe)