我尝试使用in
过滤非常大的xdf文件(坐在cloudera上),将其与另一个xdf文件(坐在cloudera上)进行比较。
如果我尝试:
rxDataStep(inData = largeXdf,
outFile = largeXdf,
overwrite = TRUE,
transformObjects =
list(param1 = parameter),
rowSelection = (columnNameFromLargeXdf %in% param1$1),
numRows = -1))
我收到有关param$1
的错误,说s4类的对象无法进行子集化。与在xdf中一样,数据对象不能进行子集化。有没有办法解决?我宁愿不将xdf转换为本地csv文件,因为它非常大。
答案 0 :(得分:1)
XDFs
当然可以进行子集化,但您无法覆盖XDF
上的hdfs
。您需要写入其他文件。另外,如果您说parameter
也是XDF
,则您在rowSelection
中使用它的方式不正确。