我是pyspark的新手,我有一个来自api的json列表,每个json对象都有相同的纲要(键值对)。像这样
[ {'count': 308,
'next': 'some_url',
'previous': None,
'results': [{'assigned_to': 43,
'category': 'Unused',
'comments': None,
'completed_ts': None,
'created': '2019-05-27T05:14:22.306843Z',
'description': 'Pollution',
'display_name': {'admin': False,
'business_name': 'Test Business',
'contact_number': 'some_number',
'dob': None,
'email': 'some_mail',
'emp_id': None,
'first_name': 'Alisha'}}]},
{'count': 309,
'next': 'some_url',
'previous': None,
'results': [{'assigned_to': 44,
'category': 'Unused',
'comments': None,
'completed_ts': None,
'created': '2019-05-27T05:14:22.306843Z',
'description': 'Pollution',
'display_name': {'admin': False,
'business_name': 'Test Business',
'contact_number': 'some_number',
'dob': None,
'email': 'some_mail',
'emp_id': None,
'first_name': 'Ali'}}]},......}]
(如果是单独的json文件)。我会使用
创建数据框 df =spark.read.json('myfile.json')
然后将所有数据帧合并为一个。我在直接从列表本身转换datframe时遇到问题。我用过这个
from pyspark.sql import SparkSession
spark= SparkSession.builder.appName("Basics").getOrCreate()
sc= spark.sparkContext
df = pyspark.sql.SQLContext(sc.parallelize(data_list))`
它给了我
AttributeError: 'RDD' object has no attribute '_jsc'
答案 0 :(得分:1)
我找不到您问题的直接答案。但是这种解决方案有效,
import json
import ast
df = sc.wholeTextFiles(path).map(lambda x:ast.literal_eval(x[1]))\
.map(lambda x: json.dumps(x))
df = spark.read.json(df)
这将为您提供输出,
+-----+--------+--------+--------------------+
|count| next|previous| results|
+-----+--------+--------+--------------------+
| 308|some_url| null|[[43,Unused,null,...|
| 309|some_url| null|[[44,Unused,null,...|
+-----+--------+--------+--------------------+
编辑: 如果它在变量中,那么您要做的就是
import json
df = sc.parallelize(data).map(lambda x: json.dumps(x))
df = spark.read.json(df)