应用错误收集

Pyspark读取jsons列作为rdd

时间：2017-08-15 10:13:47

标签： json postgresql pyspark loading rdd

我想知道最有效（最正确）的方法是什么？

我有一个包含多个列的postgres表，其中一个是jsonb，我想将它作为rdd加载到spark中。
这是我做的事情

url = myPostgresURL
df = sqlContext.read.json(DataFrameReader(sqlContext).jdbc(
     url='jdbc:%s' % url, table='"myschema".mytable', properties=properties
     ).select('myjsoncolumn').rdd.map(lambda r: r.myjsoncolumn))

这可行，但速度很慢（1M行几分钟）

非常感谢。

0 个答案:

没有答案