如何使用新File()在Spark中(带有Scala)读取文件?

时间:2019-01-16 16:21:14

标签: scala apache-spark

我是火花的初学者,我有一个问题要问你。 我想读取一个文件。我看到了一些教程,他们说要这样做:

val rib = spark.read.format("csv").option("header", "true").load("<a path to the file>")  

但是(就像我很好奇;)),我试图做这条经典的线(我之前在scala程序中使用过):

val file:File = new File("<same path>").

第一行有效(我可以使用show()查看数据),但是第二行说该文件不存在。但是,这是相同的路径。

如果有人可以告诉我为什么?

谢谢,祝你有美好的一天。

1 个答案:

答案 0 :(得分:1)

因此,当将Spark作为Hadoop堆栈的一部分时,Sparks使用的默认文件系统实际上就是HDFS。可以将Spark的默认文件系统配置为IIRC。

new File但是会​​引用您的本地文件系统(最有可能是驱动程序的本地文件系统)。这将意味着您的代码和工作不会分散,而是全部在本地完成。