只读取R中Stata .DTA文件的一部分

时间:2011-04-11 12:50:17

标签: r stata processing-efficiency

如果在某处有一个简单的答案,我会提前道歉。这似乎是那样的事情,但我似乎无法在帮助文件中找到它,通过搜索SO或谷歌搜索。

我现在正在使用几个GB的数据集。它足以适应我有权访问的其中一个集群节点的内存,但需要花费相当多的时间来加载。对于使用此数据的许多调试/编程活动,我不需要加载整个文件,只需要在前几千个观察点上有一个数据集来测试代码。我当然可以读取整个文件和子集,但我想知道是否有办法告诉read.dta()只读取前N行?这当然要快得多。

我也可以使用像.csv这样的正确格式,然后使用read.csv()的nrows参数,但是我会丢失Stata数据集中的因子标签(并且必须重新创建相当多的GB数据)来自其他人的代码,这些代码正在为这个项目提供支持。因此,首选.dta文件的直接解决方案。

3 个答案:

答案 0 :(得分:9)

Stata的二进制文件是逐行编写的,因此您可以更改R_LoadStataData中的stataread.c函数以限制读入的行数。但是,这只有在您不这样做时才有效需要值标签,因为它们写在文件的末尾,需要你读取整个文件 - 这不会节省任何时间。

答案 1 :(得分:7)

这将是一个困难的问题,因为引擎盖下的do_readStata函数是编译代码,只能接收整个文件。我认为通常二进制文件很难逐行读取,.dta是二进制格式。此外,R的原生二进制格式不允许在读入时从数据集中选择多行。

在我看来,您可以更好地从Stata中创建一组测试文件(例如,Stata代码sample 1000, count将为您提供来自已加载数据集的1000个观测值的样本),并使用它们。如果您无法访问Stata,项目中的其他人应该能够为您做到这一点。

答案 2 :(得分:1)

跟进Joris Meys:对于这种事情,我使用“测试”数据集和“真实”数据集,每个数据集都在不同的文件夹中。我在.do文件的顶部(使用下面的if / then语句)保留一个宏,以(1)获取数据样本,(2)将输入/输出指向包含其中一个或另一个的右侧文件夹。我可能会为每个项目做不同的事情,但是这样的事情:

数据创建.do文件

blah blah blah 
save                  using data/myfile.dta
save if uniform()<.05 using test_data/myfile.dta   // or bsample, then save for panel data

分析.do文件

local test = "test_"   
// when you're ready to run the file with all the data, use the following 
// local test = ""

use `test'data/myfile.dta
blah blah blah 
outreg2 ... using `test'output/mytable.txt