用Hadoop进行市场篮子分析

时间:2016-12-15 20:29:38

标签: r hadoop hdinsight arules market-basket-analysis

我试图找到一种快速的方法来对数百万行的交易市场篮子数据进行亲和力分析。

到目前为止我做了什么:

  • 在Spark& amp;创建一个R服务器云上的Hadoop(Azure HDInsight)
  • HDFS上的已加载数据
  • RevoScaleR入门

然而,我在最后一步陷入困境。据我了解,我无法使用RevoScaleR中未提供的功能来处理数据。

以下是访问HDFS数据的代码:

bigDataDirRoot <- "/basket" 
mySparkCluster <- RxSpark(consoleOutput=TRUE)
rxSetComputeContext(mySparkCluster)
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)
inputFile <-file.path(bigDataDirRoot,"gunluk")

所以我的infputFile是已经在/ basket / gunluk创建的Azure Blob中的CSV

gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)

运行此功能后,我可以使用head(gunluk_data)查看数据。

如何将 gunluk_data arules 包功能配合使用。这可能吗?

如果没有,是否可以使用常规R包(即arules)处理HDFS中的CSV文件?

1 个答案:

答案 0 :(得分:0)

在arules中,您可以使用read.transactions来读取文件中的数据,使用write.PMML来写出规则/项目集。