应用错误收集

我的交易数据位于HDFS群集上的Hive表中。我已将表导入内存并选择了适当的交易ID列和项目。

tbl_cache(sc, 'claims', force = TRUE)
tbl <- tbl(sc, 'claims')

我认为我的数据尚未准备好与ml_fpgrowth函数一起使用，因为每个事务都必须位于其自己的行上。目前，我的数据如下：

transID <- c('1','1','2','3')
product <- c('Oranges','Banana','Fish','Cheese')
myData <- data.frame(transID,product)

如您所见，事务1分为两行，这不是ML_FPGROWTH的正确格式

> myData
  transID product
1       1 Oranges
2       1  Banana
3       2    Fish
4       3  Cheese

我想使我的spark数据帧看起来如下：

1个橘子香蕉 2条鱼 3奶酪

如何使用Sparklyr / dplyr透视数据，以便将数据传递给ml_fpgrowth？