使用Sparklyr从Hive表准备事务以准备进行FP增长

时间:2019-12-28 21:02:50

标签: r apache-spark sparklyr fpgrowth

我的交易数据位于HDFS群集上的Hive表中。我已将表导入内存并选择了适当的交易ID列和项目。

tbl_cache(sc, 'claims', force = TRUE)
tbl <- tbl(sc, 'claims')

我认为我的数据尚未准备好与ml_fpgrowth函数一起使用,因为每个事务都必须位于其自己的行上。目前,我的数据如下:

transID <- c('1','1','2','3')
product <- c('Oranges','Banana','Fish','Cheese')
myData <- data.frame(transID,product)

如您所见,事务1分为两行,这不是ML_FPGROWTH的正确格式

> myData
  transID product
1       1 Oranges
2       1  Banana
3       2    Fish
4       3  Cheese

我想使我的spark数据帧看起来如下:

1个橘子香蕉 2条鱼 3奶酪

如何使用Sparklyr / dplyr透视数据,以便将数据传递给ml_fpgrowth?

0 个答案:

没有答案