从远程位置(ftp)读取Apache Spark中的csv文件

时间:2015-12-27 11:18:44

标签: url ftp apache-spark

我在Ubuntu机器上有一个文件,我想在Apache spark中读取。

我找到了这个例子:

object BasicTextFromFTP {
    def main(args: Array[String]) {
      val conf = new SparkConf
      conf.setMaster(args(0))
      val sc = new SparkContext(conf)
      val file = sc.textFile("ftp://anonymous:pandamagic@ftp.ubuntu.com/ubuntu/ls-LR.gz")
      println(file.collect().mkString("\n"))
    }
}

在此链接上:

  

https://github.com/databricks/learning-spark/blob/master/src/main/scala/com/oreilly/learningsparkexamples/scala/BasicLoadTextFromFTP.scala

我不明白网址是如何创建的。请帮帮我。

1 个答案:

答案 0 :(得分:3)

URL的基本结构是架构类型(此处为ftp),后跟

//<user>:<password>@<host>:<port>/<url-path>

其中除主机外的每个部分都可以省略。