我正在寻找一种通用解决方案,以从JSON字符串列中提取所有json字段作为列。
df = spark.read.load(path)
df.show()
“路径”中文件的文件格式为镶木地板
样本数据
|id | json_data
| 1 | {"name":"abc", "depts":["dep01", "dep02"]}
| 2 | {"name":"xyz", "depts":["dep03"],"sal":100}
| 3 | {"name":"pqr", "depts":["dep02"], "address":{"city":"SF","state":"CA"}}
预期产量
|id | name | depts | sal | address_city | address_state
| 1 | "abc" | ["dep01", "dep02"] | null| null | null
| 2 | "xyz" | ["dep03"] | 100 | null | null
| 3 | "pqr" | ["dep02"] | null| "SF" | "CA"
我知道我可以通过使用定义的模式创建StructType并使用'from_json'方法来提取列。
但是这种方法需要手动定义架构。
val myStruct = StructType(
Seq(
StructField("name", StringType),
StructField("depts", ArrayType(StringType)),
StructField("sal", IntegerType)
))
var newDf = df.withColumn("depts", from_json(col("depts"), myStruct))
是否有更好的方法来平铺JSON列而无需手动定义架构? 在提供的示例中,我可以看到可用的JSON字段。 但实际上,我无法遍历所有行以找到所有字段。
因此,我正在寻找一种解决方案,将所有字段拆分为列,而不指定列的名称或类型。
答案 0 :(得分:2)
如果它是CSV
文件,并且只有一列作为JSON
数据来。您可以使用以下解决方案。
val csvDF = spark.read.option("delimiter", "|").option("inferSchema", true).option("header", true).csv("test.csv")
val rdd = csvDF.select(" json_data").rdd.map(_.getString(0))
val ds = rdd.toDS
val jsonDF = spark.read.json(ds)
val jsonDFWithID = jsonDF.withColumn("id", monotonically_increasing_id())
val csvDFWithID = csvDF.select($"id ").withColumn("id", monotonically_increasing_id())
val joinDF = jsonDFWithID.join(csvDFWithID, "id").drop("id")
这是最终数据框的外观。
scala> joinDF.printSchema()
root
|-- address: struct (nullable = true)
| |-- city: string (nullable = true)
| |-- state: string (nullable = true)
|-- depts: array (nullable = true)
| |-- element: string (containsNull = true)
|-- name: string (nullable = true)
|-- sal: long (nullable = true)
|-- id : double (nullable = true)
如果是JSON
文件,则以下解决方案将起作用。
为了我。 inferSchema
可以正常工作。
json文件
~/Downloads ▶ cat test.json
{"id": 1, "name":"abc", "depts":["dep01", "dep02"]},
{"id": 2, "name":"xyz", "depts" :["dep03"],"sal":100}
代码
scala> scc.read.format("json").option("inerSchema", true).load("Downloads/test.json").show()
+--------------+---+----+----+
| depts| id|name| sal|
+--------------+---+----+----+
|[dep01, dep02]| 1| abc|null|
| [dep03]| 2| xyz| 100|
+--------------+---+----+----+
答案 1 :(得分:1)
假设json_data
的类型为map
(如果没有,您可以始终将其转换为map
),则可以使用getItem
:
df = spark.createDataFrame([
[1, {"name": "abc", "depts": ["dep01", "dep02"]}],
[2, {"name": "xyz", "depts": ["dep03"], "sal": 100}]
],
['id', 'json_data']
)
df.select(
df.id,
df.json_data.getItem('name').alias('name'),
df.json_data.getItem('depts').alias('depts'),
df.json_data.getItem('sal').alias('sal')
).show()
+---+----+--------------+----+
| id|name| depts| sal|
+---+----+--------------+----+
| 1| abc|[dep01, dep02]|null|
| 2| xyz| [dep03]| 100|
+---+----+--------------+----+
提取列的更动态的方法:
cols = ['name', 'depts', 'sal']
df.select(df.id, *(df.json_data.getItem(col).alias(col) for col in cols)).show()
答案 2 :(得分:1)
基于@Gaurang Shah的回答,我实现了一个解决嵌套JSON结构的解决方案,并使用monotonically_increasing_id(Non-sequential)解决了问题
在这种方法中,“ populateColumnName”函数递归检查StructType列并填充列名。
'renameColumns'函数通过替换'。'重命名列。用'_'标识嵌套的json字段。
'addIndex'函数在解析JSON列后将索引添加到数据框以加入数据框。
def flattenJSON(df : DataFrame, columnName: String) : DataFrame = {
val indexCol = "internal_temp_id"
def populateColumnName(col : StructField) : Array[String] = {
col.dataType match {
case struct: StructType => struct.fields.flatMap(populateColumnName).map(col.name + "." + _)
case rest => Array(col.name)
}
}
def renameColumns(name : String) : String = {
if(name contains ".") {
name + " as " + name.replaceAll("\\.", "_")
}
else name
}
def addIndex(df : DataFrame) : DataFrame = {
// Append "rowid" column of type Long
val newSchema = StructType(df.schema.fields ++ Array(StructField(indexCol, LongType, false)))
// Zip on RDD level
val rddWithId = df.rdd.zipWithIndex
// Convert back to DataFrame
spark.createDataFrame(rddWithId.map{ case (row, index) => Row.fromSeq(row.toSeq ++ Array(index))}, newSchema)
}
val dfWithID = addIndex(df)
val jsonDF = df.select(columnName)
val ds = jsonDF.rdd.map(_.getString(0)).toDS
val parseDF = spark.read.option("inferSchema",true).json(ds)
val columnNames = parseDF.schema.fields.flatMap(populateColumnName).map(renameColumns)
var resultDF = parseDF.selectExpr(columnNames:_*)
val jsonDFWithID = addIndex(resultDF)
val joinDF = dfWithID.join(jsonDFWithID, indexCol).drop(indexCol)
joinDF
}
val res = flattenJSON(jsonDF, "address")