使用Zeppelin和Spark

时间:2016-10-22 19:02:11

标签: scala apache-spark apache-zeppelin bigdata

我正在尝试使用Zeppelin(scala)从大文本文件(超过50 GB)中分析(实际可视化)一些数据。 Web中的示例使用具有已知标头和每列数据类型的csv文件。就我而言,我有一些带有“”分隔符的纯数据。如何将数据放入DataFrame,如下面的代码所示?:

case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
  case Array(id, name) => Record(id.toInt, name)
} 

myFile1.toDF() // DataFrame will have columns "id" and "name"

P.S。我希望数据框的列为“1”,“2”...... THX

1 个答案:

答案 0 :(得分:1)

您可以使用csv:

spark.read.option("delimiter", ";").csv(inputPath)