我有两个文件data.csv和headers.csv。我想在Spark / Scala中使用标题创建数据帧。
var data = spark.sqlContext.read.format(
"com.databricks.spark.csv").option("header", "true"
).option("inferSchema", "true").load(data_path)
你可以帮我定制上面的行吗?
答案 0 :(得分:3)
您可以使用上述方法阅读headers.csv
并使用schema
标题dataframe
来阅读data.csv
,如下所示
val headersDF = sqlContext
.read
.format("com.databricks.spark.csv")
.option("header", "true")
.load("path to headers.csv")
val schema = headersDF.schema
val dataDF = sqlContext
.read
.format("com.databricks.spark.csv")
.schema(schema)
.load("path to data.csv")
我希望答案很有帮助