Question

我正在尝试使用Pandas处理一个非常大的CSV文件（4.2 GB），在文件中扫描特定值的实例。考虑到该文件的大小，我尝试了分块处理，但是我很难提出一种算法来查找值的实例。

基本上，我有33个参数集，其中一些可以在4.2 GB表中找到。我列出了2,000多名肺炎患者，我需要为每个患者找到每个参数的第一个实例。最终目标是创建一个新表，每个病人一行，每列代表一个不同的参数。要填充此表，我首先必须处理非常大的表。大表由每个患者的“图表事件”组成-一个患者可以有数百个事件，整个数据库包括大约40,000个患者。

我希望使用新表格来训练机器学习算法，以预测患者的ICU停留时间。

到目前为止，我的想法是：

for each parameter:
    for every row in chartevents:
        for every patient:
            if the row contains the parameter for that patient:
                update the new table value for that patient and parameter

显然这是超级低效的，所以我希望有人可能知道更好的方法。有关数据的更多信息，请签出this website。

从大表熊猫中获取特定数据

0 个答案: