我有1个节点的spark集群,并使用WholeTextFile api或Textfile API来读取和解析文件。
我可以知道spark允许从远程服务器读取文件吗?或者物理上需要在Spark节点上存在文件。?
答案 0 :(得分:0)
您可以使用FTP读取远程文件
import org.apache.spark.SparkFiles
val filePath = "ftp://user:pwd/myhost/map/myinput.nt"
sc.addFile(filePath)
var fileName = SparkFiles.get(filePath.split("/").last)
var file = sc.textFile(fileName)