应用错误收集

Pyspark到Pandas df需要很多时间

时间：2018-12-23 20:12:02

标签： python python-3.x pandas dataframe

将pyspark对象转换为熊猫会花费很多时间。如何在pandas df中存储？

我有以下代码（示例）。我从pyspark提取数据，然后从teradata提取数据，然后最终在python中加入2个不同的df。但是，将pp_data2转换为pandas df大约需要2个小时。

pp_data2 = sqlContext.sql('''SELECT c1,c2,c3 

FROM cstonedb3.pp_data 

where prod in ('7QD','7RJ','7RK','7RL','7RM') ''')

pp_data2 = pp_data2.toPandas()

0 个答案:

没有答案