我正在尝试将https://data.medicare.gov/Physician-Compare/Physician-Compare-National-Downloadable-File/mj5m-pzi6中的文件加载到pandas df中。我的电脑有16GB的RAM,而这个文件小于800mb的csv。
我能够加载260万行中的100万行,但我无法加载整个csv。当我尝试加载整个csv时,我得到一个MemoryError:但是,当我查看我在任务管理器中使用的内存时,它不会超过34%(这意味着我应该有大约10 GB可用),但是我仍然会收到错误。
当我添加nrows=1000000
df = pd.read_csv('Physician_Compare_National_Downloadable_File.csv',encoding="utf-8",
engine='python')
我知道,与文件大小相比,大熊猫需要大约10倍的内存,所以我不知道16GB是不够的。有什么我需要做的事情来优化我的PC或python以使用整个16GB?