R和Stata在大型数据集上的表现有所不同

时间:2018-11-28 17:52:09

标签: r out-of-memory stata

我有一个包含40,000,000个观测值和23个变量的数据集。它以Stata格式(.dta)和4.4 Gb大写入。 Stata会在大约30秒内打开文件,而R无法执行该操作并报告错误项:

Error: cannot allocate vector of size 201.8 Mb

在R中,我使用了haven::read_dta函数,没有任何额外的参数。 在Stata中打开文件时,Windows文件管理器报告30%的RAM使用率,而在R尝试执行相同操作时,Windows的文件管理器报告为96%。

为什么两个软件之间的性能差异如此之大?

我正在使用配备Windows 10 64位,16GB RAM和Intel i7 8th gen的计算机。

0 个答案:

没有答案