我知道您可以使用
将Spark数据框 df 转换为熊猫数据框。df.toPandas()
但是,这花费了很长时间,所以我发现了一个数据块中的考拉包,它可以使我将数据用作熊猫数据框(例如,能够使用scikit learning)而没有熊猫数据框。我已经有了spark数据框,但是我找不到找到将它变成考拉树的方法。
答案 0 :(得分:1)
好吧。首先,您必须了解toPandas()之所以花费这么长时间的原因:
它将把分布式数据帧拉回到驱动程序节点(这是需要很长时间的原因)
然后您就可以在单个(驱动程序)节点中使用熊猫或Scikit学习来更快地进行分析和建模,因为这就像您在自己的PC上进行建模
答案 1 :(得分:0)
要直接从pyspark数据框(我假设这是您正在使用的)转到考拉数据框,可以使用:
koalas_df = ks.DataFrame(your_pyspark_df)
在这里,我将考拉作为ks进口。