使用fread(和数据连接)将多个gzip文件读入单个data.table

时间:2014-09-28 05:43:41

标签: r data.table gzip fread

我正在看这个帖子:' append multiple large data.table's; custom data coercion using colClasses and fread; named pipes'

我从" Matt Dowle"看到,fread "可以接受非文件,例如http地址和连接" 。我尝试过去传递 gzip连接但没有成功。有没有人有一个例子展示如何用fread 读取gzip文件而不需要需要在本地或使用管道解压缩它?

现在,我使用fread解压缩本地网络文件并将其附加到已使用 rbindlist 读取的其他数据。但是,我认为可能有更快的方法来实现这一目标。

此外,根据来自" James"的原始问题,如果提供了对gzip文件(或使用其他算法压缩的文件)的支持,那么打开和连接多个文件的提议会很棒。也许允许用户通过fread:

  1. 一组gzip连接,或
  2. 一组文件和一些有关所提供文件类型的信息(或使用的连接类型),或
  3. 一个文件数组,并自动识别文件是否使用gzip或其他格式压缩,或
  4. 第1,2和2点的组合3
  5. 这可能已经存在,我希望有人可以通过我一些示例代码或指向正确的方向。我查看了data.frame R-Forge project并将其作为请求/错误提交,但我无法这样做(希望没有人冒犯,如果我在这里发布)。

    最后,是否有人知道R是否可以将文件读入RAM 并将句柄传递给此虚拟文件,无需需要使用RAM磁盘等?

    我希望有人可以帮助我提高代码的性能,目的是读取位于我们网络上的一千个gzip文件,这些文件可能有不同的数据列(即并非所有文件都有相同的列,但是他们确实至少有一定程度的重叠)。这些文件的总大小约为10Gb。

0 个答案:

没有答案