标签: apache-spark data.table spark-dataframe cluster-computing sparkr
场合
我曾经在Rstudio上使用data.table而不是plyr或sqldf,因为它真的很快。现在,我正在天蓝色群集上处理sparkR,如果我可以在我的spark数据帧上使用data.table并且它是否比sql更快,我现在想要?
答案 0 :(得分:2)
这是不可能的。 SparkDataFrames是具有精简R接口的Java对象。虽然在某些有限的情况下(dapply,gapply)可以使用工作方R,但data.table没有用。
SparkDataFrames
dapply
gapply
data.table