我试图找到一种快速的方法来对数百万行的交易市场篮子数据进行亲和力分析。
到目前为止我做了什么:
然而,我在最后一步陷入困境。据我了解,我无法使用RevoScaleR中未提供的功能来处理数据。
以下是访问HDFS数据的代码:
bigDataDirRoot <- "/basket"
mySparkCluster <- RxSpark(consoleOutput=TRUE)
rxSetComputeContext(mySparkCluster)
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)
inputFile <-file.path(bigDataDirRoot,"gunluk")
所以我的infputFile是已经在/ basket / gunluk创建的Azure Blob中的CSV
gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)
运行此功能后,我可以使用head(gunluk_data)查看数据。
如何将 gunluk_data 与 arules 包功能配合使用。这可能吗?
如果没有,是否可以使用常规R包(即arules)处理HDFS中的CSV文件?
答案 0 :(得分:0)
在arules中,您可以使用read.transactions
来读取文件中的数据,使用write.PMML
来写出规则/项目集。