更新Dataframe架构阅读Spark Scala

时间:2017-02-03 16:28:00

标签: scala apache-spark dataframe schema

我正在尝试从hdfs读取模式以加载到我的数据帧中。这允许更新架构并驻留在Spark Scala代码之外。我想知道最好的办法是什么?以下是我目前在代码中的内容。

val schema_example = StructType(Array(
    StructField("EXAMPLE_1", StringType, true),
    StructField("EXAMPLE_2", StringType, true),
    StructField("EXAMPLE_3", StringType, true))

def main(args: Array[String]): Unit = { 
   val df_example = get_df("example.txt", schema_example)
}

def get_df(filename: String, schema: StructType): DataFrame = {
    val df = sqlContext.read
      .format("com.databricks.spark.csv")
      .option("delimiter","~")
      .schema(schema)
      .option("quote", "'")
      .option("quoteMode", "ALL")
      .load(filename)
    df.select(df.columns.map(c => trim(col(c)).alias(c)): _*)
  }

1 个答案:

答案 0 :(得分:0)

最好是从HOCON Config文件中读取Schema,可以在需要时更新。

schema[
  {
     columnName = EXAMPLE_1
     type = string
  },
  {
     columnName = EXAMPLE_2
     type = string
  },
  {
     columnName = EXAMPLE_3
     type = string
  }
]

他们可以使用ConfigFactory阅读此文件。 这将是维护文件架构的更好,更清晰的方法。