我是火花的初学者,我有一个问题要问你。 我想读取一个文件。我看到了一些教程,他们说要这样做:
val rib = spark.read.format("csv").option("header", "true").load("<a path to the file>")
但是(就像我很好奇;)),我试图做这条经典的线(我之前在scala程序中使用过):
val file:File = new File("<same path>").
第一行有效(我可以使用show()查看数据),但是第二行说该文件不存在。但是,这是相同的路径。
如果有人可以告诉我为什么?
谢谢,祝你有美好的一天。
答案 0 :(得分:1)
因此,当将Spark作为Hadoop堆栈的一部分时,Sparks使用的默认文件系统实际上就是HDFS。可以将Spark的默认文件系统配置为IIRC。
new File
但是会引用您的本地文件系统(最有可能是驱动程序的本地文件系统)。这将意味着您的代码和工作不会分散,而是全部在本地完成。