我想知道最有效(最正确)的方法是什么?
我有一个包含多个列的postgres表,其中一个是jsonb,我想将它作为rdd加载到spark中。
这是我做的事情
url = myPostgresURL
df = sqlContext.read.json(DataFrameReader(sqlContext).jdbc(
url='jdbc:%s' % url, table='"myschema".mytable', properties=properties
).select('myjsoncolumn').rdd.map(lambda r: r.myjsoncolumn))
这可行,但速度很慢(1M行几分钟)
非常感谢。