Question

我是火花的初学者，我有一个问题要问你。我想读取一个文件。我看到了一些教程，他们说要这样做：

val rib = spark.read.format("csv").option("header", "true").load("<a path to the file>")

但是（就像我很好奇；）），我试图做这条经典的线（我之前在scala程序中使用过）：

val file:File = new File("<same path>").

第一行有效（我可以使用show（）查看数据），但是第二行说该文件不存在。但是，这是相同的路径。

如果有人可以告诉我为什么？

谢谢，祝你有美好的一天。

Answer 1

因此，当将Spark作为Hadoop堆栈的一部分时，Sparks使用的默认文件系统实际上就是HDFS。可以将Spark的默认文件系统配置为IIRC。

new File但是会引用您的本地文件系统（最有可能是驱动程序的本地文件系统）。这将意味着您的代码和工作不会分散，而是全部在本地完成。