数据看起来像这样-
+-----------+-----------+-----------------------------+
| id| point| data|
+-----------------------------------------------------+
| abc| 6|{"key1":"124", "key2": "345"}|
| dfl| 7|{"key1":"777", "key2": "888"}|
| 4bd| 6|{"key1":"111", "key2": "788"}|
我正在尝试将其分解为以下格式。
+-----------+-----------+-----------+-----------+
| id| point| key1| key2|
+------------------------------------------------
| abc| 6| 124| 345|
| dfl| 7| 777| 888|
| 4bd| 6| 111| 788|
explode
函数将数据框爆炸成多行。但这不是理想的解决方案。
注意:此解决方案无法回答我的问题。 PySpark "explode" dict in column
答案 0 :(得分:11)
只要您使用的是Spark 2.1版或更高版本,pyspark.sql.functions.from_json
应该会获得理想的结果,但是您首先需要定义必需的schema
from pyspark.sql.functions import from_json, col
from pyspark.sql.types import StructType, StructField, StringType
schema = StructType(
[
StructField('key1', StringType(), True),
StructField('key2', StringType(), True)
]
)
df.withColumn("data", from_json("data", schema))\
.select(col('id'), col('point'), col('data.*'))\
.show()
应该给您
+---+-----+----+----+
| id|point|key1|key2|
+---+-----+----+----+
|abc| 6| 124| 345|
|df1| 7| 777| 888|
|4bd| 6| 111| 788|
+---+-----+----+----+
答案 1 :(得分:2)
如@pault所建议,数据字段是string
字段。由于JSON字符串中各行的键相同(即'key1','key2'),因此您也可以使用json_tuple()
(此功能是 1.6 的新增功能,基于文档)
from pyspark.sql import functions as F
df.select('id', 'point', F.json_tuple('data', 'key1', 'key2').alias('key1', 'key2')).show()
下面是我的原始帖子:如果原始表格来自df.show(truncate=False)
,因此data
字段不是,则很可能错误 python数据结构。
由于您已将数据分解为行,所以我认为列data
是Python数据结构而不是字符串:
from pyspark.sql import functions as F
df.select('id', 'point', F.col('data').getItem('key1').alias('key1'), F.col('data')['key2'].alias('key2')).show()
答案 2 :(得分:0)
这适用于我的用例
data1 = spark.read.parquet(path)
json_schema = spark.read.json(data1.rdd.map(lambda row: row.json_col)).schema
data2 = data1.withColumn("data", from_json("json_col", json_schema))
col1 = data2.columns
col1.remove("data")
col2 = data2.select("data.*").columns
append_str ="data."
col3 = [append_str + val for val in col2]
col_list = col1 + col3
data3 = data2.select(*col_list).drop("json_col")
答案 3 :(得分:0)
正如@jxc 所提到的,如果您无法事先定义架构并且您只需要处理单个级别的 json 字符串,那么 json_tuple
应该可以正常工作。我认为它更直接,更易于使用。奇怪的是,我之前没有发现其他人提到过这个功能。
在我的用例中,原始数据框架构:StructType(List(StructField(a,StringType,true)))
,json 字符串列显示为:
+---------------------------------------+
|a |
+---------------------------------------+
|{"k1": "v1", "k2": "2", "k3": {"m": 1}}|
|{"k1": "v11", "k3": "v33"} |
|{"k1": "v13", "k2": "23"} |
+---------------------------------------+
使用 json_tuple
将 json 字段扩展为新列:
from pyspark.sql import functions as F
df = df.select(F.col('a'),
F.json_tuple(F.col('a'), 'k1', 'k2', 'k3') \
.alias('k1', 'k2', 'k3'))
df.schema
df.show(truncate=False)
文档没有说太多,但至少在我的用例中,json_tuple
提取的新列是 StringType
,并且它只提取单个深度的 JSON 字符串。
StructType(List(StructField(k1,StringType,true),StructField(k2,StringType,true),StructField(k3,StringType,true)))
+---------------------------------------+---+----+-------+
|a |k1 |k2 |k3 |
+---------------------------------------+---+----+-------+
|{"k1": "v1", "k2": "2", "k3": {"m": 1}}|v1 |2 |{"m":1}|
|{"k1": "v11", "k3": "v33"} |v11|null|v33 |
|{"k1": "v13", "k2": "23"} |v13|23 |null |
+---------------------------------------+---+----+-------+