我需要一些有关在Spark中定义包含大量文件的目录路径的提示。我已经建立了一个独立群集,其中一台计算机作为Worker,另一台计算机作为Master,而驱动程序是我的本地计算机。我使用python在本地计算机上开发代码。我已将所有文件复制到主服务器和工作服务器,两台计算机上的路径相同(例如:/ data / test /)。我已经设置了SparkSession,但是现在我不知道如何在脚本中定义目录的路径。所以我的问题是怎么说Spark可以在上面目录中的两台机器上找到数据? 对我来说,另一个问题是如何处理.mal等文件格式,如何读取此类文件?感谢您的提示!
答案 0 :(得分:0)
将Spark作业提交给驾驶员(主驾驶员)后,几乎没有发生任何事情
sparkContext
关闭或应用程序范围完成时,资源被释放,执行程序终止。提交Spark作业的驱动程序或主设备需要可访问的数据路径,因为它控制所有执行计划。驱动程序和集群管理器会注意所有事情,以便在工作器中执行各种操作。由于Spark作业是在主服务器中提交的,因此足以提供可由主计算机的spark访问的数据路径。