Pyspark读取jsons列作为rdd

时间:2017-08-15 10:13:47

标签: json postgresql pyspark loading rdd

我想知道最有效(最正确)的方法是什么?

我有一个包含多个列的postgres表,其中一个是jsonb,我想将它作为rdd加载到spark中。
这是我做的事情

url = myPostgresURL
df = sqlContext.read.json(DataFrameReader(sqlContext).jdbc(
     url='jdbc:%s' % url, table='"myschema".mytable', properties=properties
     ).select('myjsoncolumn').rdd.map(lambda r: r.myjsoncolumn)) 

这可行,但速度很慢(1M行几分钟)

非常感谢。

0 个答案:

没有答案