我想将scala数据框转换为pandas数据框
val collection = spark.read.sqlDB(config)
collection.show()
#Should be like df=collection
答案 0 :(得分:1)
您正在寻求一种使用Scala中的Python库的方法。这对我来说有点奇怪。您确定必须这样做吗?也许您知道这一点,但是Scala DataFrames具有良好的API,可能会为您提供熊猫所需的功能。
如果您仍然需要使用熊猫,建议您将所需的数据写入文件(例如csv)。然后,使用Python应用程序可以将该文件加载到pandas数据框中并从那里开始工作。
尝试从Scala创建pandas对象可能会使事情复杂化(而且我不确定当前是否可行)。
答案 1 :(得分:0)
我认为,如果您想在pandas
代码中使用基于SPARK
的API,则可以安装Koalas-Python
库。因此,无论您想直接从pandas
API中使用什么函数,都可以将它们嵌入SPARK
代码中。
要安装可乐
pip install koalas