使用R / Python将SAS文件(sas7bdat)转换为平面文件而无内存限制

时间:2018-07-03 14:07:04

标签: python r sas

我需要将SAS文件转换为平面文件。这些文件可能很大,最大可以达到60 GB。我在R(如下)中编写了一个脚本,但它读取了所有数据,然后导出到CSV文件。有没有办法可以转换这么大的文件而没有任何内存限制。我愿意使用R或Python。我在具有16 GB RAM的计算机上工作。

args = commandArgs(trailingOnly=TRUE)

library(sas7bdat)

MyData <-  read.sas7bdat(file = args[1])
write.csv(MyData, file = args[2], row.names = FALSE)

1 个答案:

答案 0 :(得分:1)

我认为,您可以使用pandas.read_sas和chunksize arg获取解决方案:

Pandas read sas docs

例如,迭代10k次观察:

import pandas as pd

chunk_size =  10**4
for chunk in pd.read_sas(filename, chunksize=chunksize):
    process(chunk)

其中process()是要提供(附加等)的指令。