RxSpark代码执行

时间:2017-03-19 05:42:01

标签: r apache-spark microsoft-r

我正在尝试使用" Revo64-9.0 -f testrxspark.R"执行以下代码。命令

list.files(system.file("SampleData", package = "RevoScaleR"))
myHadoopCluster <- RxSpark(namenode="zzz.westeurope.cloudapp.azure.com", port=8020,consoleOutput=TRUE)
rxSetComputeContext(myHadoopCluster)
file.exists(system.file("SampleData/AirlineDemoSmall.csv", package="RevoScaleR"))
bigDataDirRoot <- "/user/RevoShare" # HDFS location of the example data
rxHadoopListFiles(bigDataDirRoot) # There will be no files at this point.
source <-system.file("SampleData/AirlineDemoSmall.csv", package="RevoScaleR")
inputDir <- file.path(bigDataDirRoot,"AirlineDemoSmall")
rxHadoopMakeDir(inputDir)
rxHadoopListFiles(bigDataDirRoot)
rxHadoopCopyFromLocal(source, inputDir)
rxHadoopListFiles(inputDir)
hdfsFS <- RxHdfsFileSystem(hostName="zzz.westeurope.cloudapp.azure.com", port=8020)
colInfo <- list(DayOfWeek = list(type = "factor", levels = c("Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday")))
airDS <- RxTextData(file = inputDir, missingValueString = "M", colInfo  = colInfo, fileSystem = hdfsFS)
# adsSummary <- rxSummary(~ArrDelay+CRSDepTime+DayOfWeek, data = airDS)
rxSummary(~ArrDelay:DayOfWeek, data = airDS)

我收到了以下错误:

  

17/03/19 00:00:11 WARN util.NativeCodeLoader:无法为您的平台加载native-hadoop库...使用内置的java类appli $

     

警告:在/log/cloudera/parcels/MRS-9.0.1/hadoop中找不到libjvm.so,在系统范围内搜索

     

内部错误:连接到hdfs文件系统时无法重置hdfs内部参数。

     

尝试错误({:     内部错误:连接到hdfs文件系统时无法重置hdfs内部参数。

     

错误:尝试错误({:     内部错误:连接到hdfs文件系统时无法重置hdfs内部参数。

将ScaleR库scaleR-hadoop-0.1-SNAPSHOT.jar复制到所有节点上的Cloudera Parcel hadoop lib文件夹。 请尽早帮我解决这个问题

1 个答案:

答案 0 :(得分:1)

MRS使用名为/ var / RevoShare的目录来执行。一旦执行,它将按用户名创建文件夹,该用户名与其在此文件夹中的数据一起执行。

不知何故,它不会删除旧文件。我手动删除了文件&amp;然后就开始工作了。