Pyspark到Pandas df需要很多时间

时间:2018-12-23 20:12:02

标签: python python-3.x pandas dataframe

将pyspark对象转换为熊猫会花费很多时间。如何在pandas df中存储?

我有以下代码(示例)。我从pyspark提取数据,然后从teradata提取数据,然后最终在python中加入2个不同的df。但是,将pp_data2转换为pandas df大约需要2个小时。

pp_data2 = sqlContext.sql('''SELECT c1,c2,c3 

FROM cstonedb3.pp_data 

where prod in ('7QD','7RJ','7RK','7RL','7RM') ''')

pp_data2 = pp_data2.toPandas()

0 个答案:

没有答案