Question

我正在使用电影镜头数据集，我有一个用户id的矩阵（m X n）作为行和电影ID作为列，我已经做了降维技术和矩阵分解来减少我的稀疏矩阵（m X k，其中k 编写的函数，对执行交叉验证和训练分类器提出一些建议

Answer 1

sparklyr（https://spark.rstudio.com/）包提供了分区数据的简单功能。例如，如果我们在Spark中有一个名为df的数据框，我们可以使用compute()创建一个数据框，然后使用sdf_partition()对其进行分区。

df_part <- df %>%
  compute("df_part") %>%
  sdf_partition(test = 0.2, train = 0.8, seed = 2017)

df_part然后是Spark DataFrame的连接。我们可以使用collect()将Spark DataFrame复制到R数据帧中。