我正在尝试使用Pandas处理一个非常大的CSV文件(4.2 GB),在文件中扫描特定值的实例。考虑到该文件的大小,我尝试了分块处理,但是我很难提出一种算法来查找值的实例。
基本上,我有33个参数集,其中一些可以在4.2 GB表中找到。我列出了2,000多名肺炎患者,我需要为每个患者找到每个参数的第一个实例。最终目标是创建一个新表,每个病人一行,每列代表一个不同的参数。要填充此表,我首先必须处理非常大的表。大表由每个患者的“图表事件”组成-一个患者可以有数百个事件,整个数据库包括大约40,000个患者。
我希望使用新表格来训练机器学习算法,以预测患者的ICU停留时间。
到目前为止,我的想法是:
for each parameter:
for every row in chartevents:
for every patient:
if the row contains the parameter for that patient:
update the new table value for that patient and parameter
显然这是超级低效的,所以我希望有人可能知道更好的方法。有关数据的更多信息,请签出this website。