我的交易数据位于HDFS群集上的Hive表中。我已将表导入内存并选择了适当的交易ID列和项目。
tbl_cache(sc, 'claims', force = TRUE)
tbl <- tbl(sc, 'claims')
我认为我的数据尚未准备好与ml_fpgrowth函数一起使用,因为每个事务都必须位于其自己的行上。目前,我的数据如下:
transID <- c('1','1','2','3')
product <- c('Oranges','Banana','Fish','Cheese')
myData <- data.frame(transID,product)
如您所见,事务1分为两行,这不是ML_FPGROWTH的正确格式
> myData
transID product
1 1 Oranges
2 1 Banana
3 2 Fish
4 3 Cheese
我想使我的spark数据帧看起来如下:
1个橘子香蕉 2条鱼 3奶酪
如何使用Sparklyr / dplyr透视数据,以便将数据传递给ml_fpgrowth?