Spark Scala流式CSV

时间:2016-05-30 12:55:39

标签: scala csv apache-spark spark-streaming

我是Spark / Scala的新手。我知道如何加载CSV文件:

    sqlContext.read.format("csv")

以及如何阅读文本流和文件流:

    scc.textFileStream("""file:///c:\path\filename""");
    scc.fileStream[LongWritable, Text, TextInputFormat](...)

但如何以CSV 格式阅读文字流?谢谢,Levi

2 个答案:

答案 0 :(得分:4)

你走了:

val ssc = new StreamingContext(sparkConf, Seconds(5))


    // Create the FileInputDStream on the directory
    val lines = ssc.textFileStream("file:///C:/foo/bar")

    lines.foreachRDD(rdd => {
        if (!rdd.isEmpty()) {
          println("RDD row count: " + rdd.count())
         // Now you can convert this RDD to DataFrame/DataSet and perform business logic.  

        }
      }
    })

    ssc.start()
    ssc.awaitTermination()
  } 

答案 1 :(得分:0)

您可以使用spark 2.2结构化流式传输轻松传输Csv文件。

您可以参考here