如何将Spark数据框转换为databrick考拉数据框?

时间:2019-06-21 15:58:29

标签: python-3.x dataframe databricks

我知道您可以使用

将Spark数据框 df 转换为熊猫数据框。
  

df.toPandas()

但是,这花费了很长时间,所以我发现了一个数据块中的考拉包,它可以使我将数据用作熊猫数据框(例如,能够使用scikit learning)而没有熊猫数据框。我已经有了spark数据框,但是我找不到找到将它变成考拉树的方法。

2 个答案:

答案 0 :(得分:1)

好吧。首先,您必须了解toPandas()之所以花费这么长时间的原因:

  • Spark数据帧分布在不同的节点中,并且在您运行toPandas()时
  • 它将把分布式数据帧拉回到驱动程序节点(这是需要很长时间的原因)

  • 然后您就可以在单个(驱动程序)节点中使用熊猫或Scikit学习来更快地进行分析和建模,因为这就像您在自己的PC上进行建模

  • Koalas是spark中的pandas API,当您将其转换为koalas dataframe时:它仍然是分布式的,因此不会在不同节点之间随机播放数据,因此您可以使用pandas的类似语法进行分布式dataframe转换

答案 1 :(得分:0)

要直接从pyspark数据框(我假设这是您正在使用的)转到考拉数据框,可以使用:

koalas_df = ks.DataFrame(your_pyspark_df)

在这里,我将考拉作为ks进口。