spark独立模式下的csv数据处理

时间:2016-03-25 01:36:13

标签: apache-spark

我有两个节点,我们叫A(192.168.2.100)和B(192.168.2.200)。 A代表大师和工人。 在节点

./bin/spark-class org.apache.spark.deploy.worker
./bin/spark-class org.apache.spark.deploy.master

B代表woker

./bin/spark-class org.apache.spark.deploy.worker

我的应用需要加载cav文件来处理 在节点A中,

./spark-submit --class "myApp" --master spark://192.168.2.100:7077 /spark/app.jar

但是“在B中需要csv文件”会出错。 有没有办法将此文件共享给节点B? 真的,我需要使用mesos纱来做到这一点吗?

2 个答案:

答案 0 :(得分:1)

如下图所示:您要处理的所有数据文件都应该可以从所有工作人员访问[并确保您的工作人员可以访问您的驱动程序]

所以在这里,您需要将数据文件放到工作人员可以读取数据的位置,在大多数情况下,我们将数据文件放入HDFS。

enter image description here

答案 1 :(得分:0)

如前所述,该文件必须在每个节点上都可用。因此,您要么拥有多个副本,每个节点一个,要么使用外部hadoop数据源(HDFS,Cassandra,Amazon s3)。还有另一个更简单的解决方您可以使用NFS并将远程驱动器/分区/位置安装到每个节点。这样您就不需要拥有多个副本,也无需了解外部存储。如果您希望在ssh上拥有安全的挂载点,甚至可以使用sshfs