Question

我正在将Spark作业提交到纱线上的远程Spark集群，并在spark-submit --file中包含一个文件，我想将提交的文件作为数据帧读取。但是我对如何解决这个问题而不必将文件放入HDFS感到困惑：

spark-submit \
--class com.Employee \
--master yarn \
--files /User/employee.csv \
--jars SomeJar.jar

spark: SparkSession = // create the Spark Session
val df = spark.read.csv("/User/employee.csv")

Answer 1

spark.sparkContext.addFile("file:///your local file path ")

使用addFile添加文件，以便可以在您的工作节点上使用它。因为您想以群集模式读取本地文件。

您可能需要根据scala和所使用的Spark版本进行些微更改。

Answer 2

employee.csv在executor的工作目录中，只需按以下步骤阅读即可：

val df = spark.read.csv("employee.csv")

Spark读取从--files提交的csv文件

2 个答案: