我需要将我的Spark Streaming检查点文件保存在HDFS目录中。我可以访问安装了MAPR的远程集群。
但是,我不确定MAPR在哪条路径上表示HDFS目录
是opt/mapr/..
吗?
答案 0 :(得分:0)
连接到MapR群集后,可以运行以下命令:
hadoop fs -ls /
这将列出任何HDFS群集中的文件/文件夹列表,因此您可以在此处看到任何特殊内容。
因此,如果你的Spark作业在MapR集群上运行,你只需要指向你想要的文件夹,例如:
yourRdd.saveAsTextFile("/apps/output");
您可以在开发环境中执行完全相同的操作,但必须安装和配置MapR-Client
请注意,您还可以使用应在群集上运行的NFS访问MapR文件系统(FS),默认情况下,挂载点为/ mapr
因此,您可以使用以下方式查看FS的内容:
cd /mapr/you-cluster-name/apps/output
/mapr/opt
是包含MapR安装产品的文件夹。
因此,如果从纯Spark的角度来看它:没有任何改变只是保存/读取文件夹中的数据,如果你在MapR中运行,这将在MapR-FS中完成。