为什么我会在pandas中出现内存错误?

时间:2018-03-30 01:12:30

标签: python pandas dataframe out-of-memory

我正在尝试将https://data.medicare.gov/Physician-Compare/Physician-Compare-National-Downloadable-File/mj5m-pzi6中的文件加载到pandas df中。我的电脑有16GB的RAM,而这个文件小于800mb的csv。

我能够加载260万行中的100万行,但我无法加载整个csv。当我尝试加载整个csv时,我得到一个MemoryError:但是,当我查看我在任务管理器中使用的内存时,它不会超过34%(这意味着我应该有大约10 GB可用),但是我仍然会收到错误。

当我添加nrows=1000000

时,我可以运行以下代码
df = pd.read_csv('Physician_Compare_National_Downloadable_File.csv',encoding="utf-8",
             engine='python')

我知道,与文件大小相比,大熊猫需要大约10倍的内存,所以我不知道16GB是不够的。有什么我需要做的事情来优化我的PC或python以使用整个16GB?

0 个答案:

没有答案