Question

我想将data.frame转换为ff对象，使用as.ffdf描述here

df.apr=as.data.frame(df.apr) # from data.table to data.frame
cols=df.apr[1,] 
cols=sapply(cols,class)
df_apr=as.ffdf(df.apr,vmode=cols)

给出错误：

Error in ff(initdata = initdata, length = length, levels = levels, ordered = ordered,
: vmode 'numeric' not implemented

没有'vmode'参数，会出现以下错误：

Error in ff(initdata = initdata, length = length, levels = levels, ordered = ordered, 
: vmode 'character' not implemented

写到桌子上，然后直接读到ff，但是：

write.table(df.apr,file='df_apr.txt',sep='\t',row.names=F)
df.apr.ff=read.table.ffdf(file='df_apr.txt',header=F,VERBOSE=T)

但这很耗时[而且很笨拙]。有更好的方法吗？

Answer 1

如果您想知道可以在ff中使用的所有可能的vmode，请在控制台中键入以下内容。

require(ff)
.vimplemented

您会看到数字和字符模式不在这些模式中。数字转换为双打，字符转换为因子。所以在你的问题中，你真的不需要自己指定vmodes。只要将字符编码为因子，就可以在data.frame上使用as.ffdf。所以这会奏效。

df.apr=as.data.frame(df.apr, stringsAsFactors=TRUE)
df_apr=as.ffdf(df.apr)

FYI。如果您的数据来自平面文件，请考虑使用read.table.ffdf，或者如果它来自SQL数据源，您可以使用ETLUtils包中的read.dbi.ffdf或read.odbc.ffdf。如果它来自Hadoop通过Hive，您可以使用ETLUtils包中的read.jdbc.ffdf。