我正在将Spark作业提交到纱线上的远程Spark集群,并在spark-submit --file
中包含一个文件,我想将提交的文件作为数据帧读取。但是我对如何解决这个问题而不必将文件放入HDFS感到困惑:
spark-submit \
--class com.Employee \
--master yarn \
--files /User/employee.csv \
--jars SomeJar.jar
spark: SparkSession = // create the Spark Session
val df = spark.read.csv("/User/employee.csv")
答案 0 :(得分:0)
spark.sparkContext.addFile("file:///your local file path ")
使用addFile
添加文件,以便可以在您的工作节点上使用它。因为您想以群集模式读取本地文件。
您可能需要根据scala和所使用的Spark版本进行些微更改。
答案 1 :(得分:-1)
employee.csv
在executor的工作目录中,只需按以下步骤阅读即可:
val df = spark.read.csv("employee.csv")