使用100%压缩率提取Zip文件

时间:2016-03-08 14:31:33

标签: r zip opendata

尝试运行以下R脚本时,我注意到了这个问题。

library(downloader)
download('http://download.cms.gov/nppes/NPPES_Data_Dissemination_Feb_2016.zip', 
         dest = 'dataset.zip', mode = 'wb')
npi <- read.csv(unz('dataset.zip', 'npidata_20050523-20160207.csv'), 
                as.is = TRUE)

由于某种原因,脚本一直在旋转,因此我手动下载了数据并注意到压缩率为100%。

enter image description here

我不确定StackOverflow是否是这个问题的最佳Exchange,所以我愿意移动这个问题是另一个Exchange的建议。开放数据交换可能是合适的,但该网站上没有太多活动。

我的问题是:我在医疗保险和医疗补助服务中心(CMS)的政府策划数据方面做了大量工作。从这个站点下载的数据是zip文件的形式,偶尔,它们的邮政编码为100%。这显然是不可能的,因为未压缩的尺寸是~800PB。 (CMS在他们的网站上注意到他们估计未压缩的大小约为4GB。)这对我的工作计算机有影响;我已经与同事的计算机以及我自己的个人计算机一起复制了这个问题。

可以找到一个例子here。 (单击链接,然后单击NPPES数据传播)。还有其他一些我注意到的例子,我已经通过电子邮件发送了CMS。他们回答文件很大,无法用Excel处理。我知道这一点,这不是我面临的问题。

有没有人知道为什么会发生这种情况以及如何解决这个问题?

1 个答案:

答案 0 :(得分:0)

根据cdetermans的观点,R可用于执行解压缩和后续加载数据的可用系统内存是多少?查看您发布的图像以及实际数据的链接(实际数据为~560mb压缩),它在我的系统(Win 10,16 GB,Core i7,R v.3.2.3)中没有出现问题下载,解压缩,将未压缩的CSV读入表格。

我建议 - 如果没有别的办法 - 解耦您的解压缩和数据加载步骤。甚至可以调用(取决于您的操作系统)R系统命令来解压缩您的数据,手动检查,然后在数据集上单独发出分段read.tables。

祝你好运 rudycazabon