R bigmemory不会读取大型csv文件

时间:2016-05-29 13:53:01

标签: r r-bigmemory

我正在尝试使用read.big.matrix包中的biganalytics以与Vignette for bigmemory类似的方式加载689.4 MB csv。

小插图代码:

library(bigmemory)
library(biganalytics)
x <- read.big.matrix("airline.csv", type="integer", header=TRUE,
        backingfile="airline.bin",
        descriptorfile="airline.desc",
        extraCols="Age")

根据42-的评论,我使用命令行cut -d, -f9,11,17,18,23 --complement 2008.csv > 2008cut.csv上的cut删除了因子变量

然后我使用sed sed -i 's/NA/0/g' 2008cut.csv删除了数据中找到的任何NA值。即使有这些预处理步骤,我也会收到同样的错误。

我的代码:

#This works
x <- read.csv("~/Downloads/2008cut.csv",header=T)
dim(y)
#[1] 7009728      29
length(complete.cases(x))
#[1] 7009728

library(bigmemory)
library(biganalytics)
#This errors out
data <- read.big.matrix("~/Downloads/2008cut.csv", 
            type="integer", header=TRUE)

尝试运行read.big.matrix时收到以下错误:

Warning: stack imbalance in '.Call', 31 then 32
Warning: stack imbalance in '{', 28 then 29
Warning: stack imbalance in '-', 23 then 24
Warning: stack imbalance in '-', 22 then 23
Warning: stack imbalance in '<-', 20 then 21
Error in big.matrix(nrow = numRows, ncol = createCols, type = type,
 dimnames = list(rowNames,  : 
    A big.matrix must have at least one row and one column

我发现其他人遇到此问题,但他们有mixed datasimilar problem但没有回复。在我的搜索中的某个时刻,邮件列表中的某个人询问用户是否可以运行类似x <- big.matrix(nrow=1000,ncol=10)的内容来确保bigmemory正常运行。我能够运行该代码并生成big.matrix。

非常感谢任何指导!

软件详情:

  • 数据:2008 File
  • R:3.2.3
  • OS:x86_64-pc-linux-gnu
  • bigmemory:4.5.19
  • biganalytics:1.1.14

2 个答案:

答案 0 :(得分:1)

为了阅读大文件,我建议使用R fread包中的data.table

答案 1 :(得分:1)

使用绝对路径:

overcast,hot,high,false,yes
overcast,cool,normal,true,yes