将pyspark对象转换为熊猫会花费很多时间。如何在pandas df中存储?
我有以下代码(示例)。我从pyspark提取数据,然后从teradata提取数据,然后最终在python中加入2个不同的df。但是,将pp_data2转换为pandas df大约需要2个小时。
pp_data2 = sqlContext.sql('''SELECT c1,c2,c3
FROM cstonedb3.pp_data
where prod in ('7QD','7RJ','7RK','7RL','7RM') ''')
pp_data2 = pp_data2.toPandas()