应用错误收集

时间：2019-06-21 15:58:29

标签： python-3.x dataframe databricks

我知道您可以使用

将Spark数据框 df 转换为熊猫数据框。

df.toPandas（）

但是，这花费了很长时间，所以我发现了一个数据块中的考拉包，它可以使我将数据用作熊猫数据框（例如，能够使用scikit learning）而没有熊猫数据框。我已经有了spark数据框，但是我找不到找到将它变成考拉树的方法。

答案 0 :(得分：1)

好吧。首先，您必须了解toPandas（）之所以花费这么长时间的原因：

Spark数据帧分布在不同的节点中，并且在您运行toPandas（）时
它将把分布式数据帧拉回到驱动程序节点（这是需要很长时间的原因）
然后您就可以在单个（驱动程序）节点中使用熊猫或Scikit学习来更快地进行分析和建模，因为这就像您在自己的PC上进行建模
Koalas是spark中的pandas API，当您将其转换为koalas dataframe时：它仍然是分布式的，因此不会在不同节点之间随机播放数据，因此您可以使用pandas的类似语法进行分布式dataframe转换

答案 1 :(得分：0)

要直接从pyspark数据框（我假设这是您正在使用的）转到考拉数据框，可以使用：

koalas_df = ks.DataFrame(your_pyspark_df)

在这里，我将考拉作为ks进口。