我在天蓝色Blob中有大约10K个文件。使用HDInsight我创建了一个集群,现在我在R服务器上运行R脚本。这是迄今为止的代码,但现在我已经#39;从Azure blob存储中读取mulitple * .csv文件是无能为力的。从代码中,bigDataDirRoot包含所有csv文件。任何帮助都将大大鼓励。
myNameNode<-"wasb://zodiaclatency@audiencemeasurement.blob.core.windows.net"
myPort<-0
bigDataDirRoot<-"/zodiac_late_events_files_upload"
#Define Spark compute Context: to distribute computation onSpark Cluster
mySparkCluster<-RxSpark(consoleOutput = TRUE, nameNode = myNameNode, port = myPort)
#set compute context
rxSetComputeContext(mySparkCluster)
# HDFS file system object generator:
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)