Question

我想将scala数据框转换为pandas数据框

    val collection = spark.read.sqlDB(config)
    collection.show()

    #Should be like df=collection

Answer 1

您正在寻求一种使用Scala中的Python库的方法。这对我来说有点奇怪。您确定必须这样做吗？也许您知道这一点，但是Scala DataFrames具有良好的API，可能会为您提供熊猫所需的功能。

如果您仍然需要使用熊猫，建议您将所需的数据写入文件（例如csv）。然后，使用Python应用程序可以将该文件加载到pandas数据框中并从那里开始工作。

尝试从Scala创建pandas对象可能会使事情复杂化（而且我不确定当前是否可行）。

Answer 2

我认为，如果您想在pandas代码中使用基于SPARK的API，则可以安装Koalas-Python库。因此，无论您想直接从pandas API中使用什么函数，都可以将它们嵌入SPARK代码中。

要安装可乐

pip install koalas