我正在使用电影镜头数据集,我有一个用户id的矩阵(m X n)作为行和电影ID作为列,我已经做了降维技术和矩阵分解来减少我的稀疏矩阵(m X k,其中k
答案 0 :(得分:0)
sparklyr(https://spark.rstudio.com/)包提供了分区数据的简单功能。例如,如果我们在Spark中有一个名为df
的数据框,我们可以使用compute()
创建一个数据框,然后使用sdf_partition()
对其进行分区。
df_part <- df %>%
compute("df_part") %>%
sdf_partition(test = 0.2, train = 0.8, seed = 2017)
df_part
然后是Spark DataFrame的连接。我们可以使用collect()
将Spark DataFrame复制到R数据帧中。