Revolution R:使用另一个xdf过滤xdf

时间:2015-05-11 20:58:24

标签: r hadoop filtering subset revolution-r

我尝试使用in过滤非常大的xdf文件(坐在cloudera上),将其与另一个xdf文件(坐在cloudera上)进行比较。

如果我尝试:

rxDataStep(inData = largeXdf,
       outFile = largeXdf,
       overwrite = TRUE,
       transformObjects = 
         list(param1 = parameter),
       rowSelection = (columnNameFromLargeXdf %in% param1$1),
       numRows = -1))

我收到有关param$1的错误,说s4类的对象无法进行子集化。与在xdf中一样,数据对象不能进行子集化。有没有办法解决?我宁愿不将xdf转换为本地csv文件,因为它非常大。

1 个答案:

答案 0 :(得分:1)

XDFs当然可以进行子集化,但您无法覆盖XDF上的hdfs。您需要写入其他文件。另外,如果您说parameter也是XDF,则您在rowSelection中使用它的方式不正确。