如何在sparkr中进行交叉验证

时间:2016-11-02 06:12:15

标签: r cross-validation sparkr

我正在使用电影镜头数据集,我有一个用户id的矩阵(m X n)作为行和电影ID作为列,我已经做了降维技术和矩阵分解来减少我的稀疏矩阵(m X k,其中k 编写的函数,对执行交叉验证和训练分类器提出一些建议

1 个答案:

答案 0 :(得分:0)

sparklyr(https://spark.rstudio.com/)包提供了分区数据的简单功能。例如,如果我们在Spark中有一个名为df的数据框,我们可以使用compute()创建一个数据框,然后使用sdf_partition()对其进行分区。

df_part <- df %>%
  compute("df_part") %>%
  sdf_partition(test = 0.2, train = 0.8, seed = 2017)

df_part然后是Spark DataFrame的连接。我们可以使用collect()将Spark DataFrame复制到R数据帧中。