我正在尝试从hdfs读取模式以加载到我的数据帧中。这允许更新架构并驻留在Spark Scala代码之外。我想知道最好的办法是什么?以下是我目前在代码中的内容。
val schema_example = StructType(Array(
StructField("EXAMPLE_1", StringType, true),
StructField("EXAMPLE_2", StringType, true),
StructField("EXAMPLE_3", StringType, true))
def main(args: Array[String]): Unit = {
val df_example = get_df("example.txt", schema_example)
}
def get_df(filename: String, schema: StructType): DataFrame = {
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("delimiter","~")
.schema(schema)
.option("quote", "'")
.option("quoteMode", "ALL")
.load(filename)
df.select(df.columns.map(c => trim(col(c)).alias(c)): _*)
}
答案 0 :(得分:0)
最好是从HOCON Config文件中读取Schema,可以在需要时更新。
schema[
{
columnName = EXAMPLE_1
type = string
},
{
columnName = EXAMPLE_2
type = string
},
{
columnName = EXAMPLE_3
type = string
}
]
他们可以使用ConfigFactory
阅读此文件。
这将是维护文件架构的更好,更清晰的方法。