如何在Apache Spark Standalone Cluster中设置文件的路径?

时间:2019-01-22 18:13:58

标签: apache-spark

我需要一些有关在Spark中定义包含大量文件的目录路径的提示。我已经建立了一个独立群集,其中一台计算机作为Worker,另一台计算机作为Master,而驱动程序是我的本地计算机。我使用python在本地计算机上开发代码。我已将所有文件复制到主服务器和工作服务器,两台计算机上的路径相同(例如:/ data / test /)。我已经设置了SparkSession,但是现在我不知道如何在脚本中定义目录的路径。所以我的问题是怎么说Spark可以在上面目录中的两台机器上找到数据? 对我来说,另一个问题是如何处理.mal等文件格式,如何读取此类文件?感谢您的提示!

1 个答案:

答案 0 :(得分:0)

将Spark作业提交给驾驶员(主驾驶员)后,几乎没有发生任何事情

  1. 驱动程序创建一个执行计划。它创建多个阶段,每个阶段包含多个任务。
  2. 集群管理员根据提交作业的参数分配资源并从工作人员启动执行程序。
  3. 将任务交给执行者执行,驱动程序监视每个任务的执行。当sparkContext关闭或应用程序范围完成时,资源被释放,执行程序终止。

提交Spark作业的驱动程序或主设备需要可访问的数据路径,因为它控制所有执行计划。驱动程序和集群管理器会注意所有事情,以便在工作器中执行各种操作。由于Spark作业是在主服务器中提交的,因此足以提供可由主计算机的spark访问的数据路径。