使用标头和数据文件创建带标头的数据框

时间:2017-10-26 03:14:12

标签: scala apache-spark apache-spark-sql

我有两个文件data.csv和headers.csv。我想在Spark / Scala中使用标题创建数据帧。

var data = spark.sqlContext.read.format(
  "com.databricks.spark.csv").option("header", "true"
).option("inferSchema", "true").load(data_path) 

你可以帮我定制上面的行吗?

1 个答案:

答案 0 :(得分:3)

您可以使用上述方法阅读headers.csv并使用schema标题dataframe来阅读data.csv,如下所示

val headersDF = sqlContext
  .read
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .load("path to headers.csv")

val schema = headersDF.schema

val dataDF = sqlContext
  .read
  .format("com.databricks.spark.csv")
  .schema(schema)
  .load("path to data.csv")

我希望答案很有帮助