有什么办法可以从SparkSQL结果集中创建Spark数据帧?

时间:2019-05-22 09:19:53

标签: apache-spark dataframe pyspark pyspark-sql

我正在尝试通过使用for循环迭代列并将它们传递到sparksql中来找到黑白列,以区别源列和目标列 我的表格:来源和目标 我的输入=字典= {source_col1:target_col1,source_col2:target_col2) 我正在运行sparksql中的循环b / w源表和目标表,以获取b / w列之间的差异。 我无法将每一列的sparksql结果存储到新的Spark Dataframe中。 我想要的O / p->火花数据框的列包含差异

我创建了一个空列表,并将sparksql结果附加到该列表中,但是 列表给了我很多数据框。

The tag 'amp-ad' is disallowed.

在熊猫中,我使用pd.concat(list)来获取数据帧,但不确定如何在spark中实现相同的功能。

0 个答案:

没有答案