从大表熊猫中获取特定数据

时间:2018-11-25 04:42:25

标签: python pandas

我正在尝试使用Pandas处理一个非常大的CSV文件(4.2 GB),在文件中扫描特定值的实例。考虑到该文件的大小,我尝试了分块处理,但是我很难提出一种算法来查找值的实例。

基本上,我有33个参数集,其中一些可以在4.2 GB表中找到。我列出了2,000多名肺炎患者,我需要为每个患者找到每个参数的第一个实例。最终目标是创建一个新表,每个病人一行,每列代表一个不同的参数。要填充此表,我首先必须处理非常大的表。大表由每个患者的“图表事件”组成-一个患者可以有数百个事件,整个数据库包括大约40,000个患者。

我希望使用新表格来训练机器学习算法,以预测患者的ICU停留时间。

到目前为止,我的想法是:

for each parameter:
    for every row in chartevents:
        for every patient:
            if the row contains the parameter for that patient:
                update the new table value for that patient and parameter

显然这是超级低效的,所以我希望有人可能知道更好的方法。有关数据的更多信息,请签出this website

0 个答案:

没有答案