我正在尝试使用Zeppelin(scala)从大文本文件(超过50 GB)中分析(实际可视化)一些数据。 Web中的示例使用具有已知标头和每列数据类型的csv文件。就我而言,我有一些带有“”分隔符的纯数据。如何将数据放入DataFrame,如下面的代码所示?:
case class Record()
val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}
myFile1.toDF() // DataFrame will have columns "id" and "name"
P.S。我希望数据框的列为“1”,“2”...... THX
答案 0 :(得分:1)
您可以使用csv:
spark.read.option("delimiter", ";").csv(inputPath)