Question

我正在尝试使用Zeppelin（scala）从大文本文件（超过50 GB）中分析（实际可视化）一些数据。 Web中的示例使用具有已知标头和每列数据类型的csv文件。就我而言，我有一些带有“”分隔符的纯数据。如何将数据放入DataFrame，如下面的代码所示？：

case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
  case Array(id, name) => Record(id.toInt, name)
} 

myFile1.toDF() // DataFrame will have columns "id" and "name"

P.S。我希望数据框的列为“1”，“2”...... THX

Answer 1

您可以使用csv：

spark.read.option("delimiter", ";").csv(inputPath)

使用Zeppelin和Spark

1 个答案: