Pyspark DataFrame:找到两个DataFrame之间的差异(值和列名)

时间:2018-03-19 12:35:03

标签: apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

我在数据框中总共有100多列。 我试图比较两个数据框,并找到与列名称不匹配的记录。 我得到了一个输出波纹管代码,但是当我运行100+列的代码时,作业被中止了。

我正在为SCD Type 2 delta进程错误发现做这个。

from pyspark.sql.types import *
from pyspark.sql.functions import *

d2 = sc.parallelize([("A1", 500,1005) ,("A2", 700,10007)])
dataFrame1 = sqlContext.createDataFrame(d2, ["ID", "VALUE1", "VALUE2"])

d2 = sc.parallelize([("A1", 600,1005),("A2", 700,10007)])
dataFrame2 = sqlContext.createDataFrame(d2, ["ID", "VALUE1", "VALUE2"])

key_id_col_name="ID"
key_id_value="A1"
dataFrame1.select("ID","VALUE1").subtract(dataFrame2.select("ID",col("VALUE1").alias("value"))).show()

def unequalColumnValuesTwoDF(dataFrame1,dataFrame2,key_id_col_name,key_id_value):
    chk_fst=True
    dataFrame1 = dataFrame1.where(dataFrame1[key_id_col_name] == key_id_value)
    dataFrame2 = dataFrame2.where(dataFrame2[key_id_col_name] == key_id_value)
    col_names = list(set(dataFrame1.columns).intersection(dataFrame2.columns))
    col_names.remove(key_id_col_name)
    for col_name in col_names:
        if chk_fst == True:
            df_tmp = dataFrame1.select(col(key_id_col_name).alias("KEY_ID"),col(col_name).alias("VALUE")).subtract(dataFrame2.select(col(key_id_col_name).alias("KEY_ID"),col(col_name).alias("VALUE"))).withColumn("COL_NAME",lit(col_name))
            chk_fst = False
        else:
            df_tmp = df_tmp.unionAll(dataFrame1.select(col(key_id_col_name).alias("KEY_ID"),col(col_name).alias("VALUE")).subtract(dataFrame2.select(col(key_id_col_name).alias("KEY_ID"),col(col_name).alias("VALUE"))).withColumn("COL_NAME",lit(col_name)))
    return df_tmp

res_df = unequalColumnValuesTwoDF(dataFrame1,dataFrame2,key_id_col_name,key_id_value)

res_df.show() 

   >>> dataFrame1.show()
    +---+------+------+
    | ID|VALUE1|VALUE2|
    +---+------+------+
    | A1|   500|  1005|
    | A2|   700| 10007|
    +---+------+------+

    >>> dataFrame2.show()
    +---+------+------+
    | ID|VALUE1|VALUE2|
    +---+------+------+
    | A1|   600|  1005|
    | A2|   700| 10007|
    +---+------+------+

    >>> res_df.show()
    +------+-----+--------+
    |KEY_ID|VALUE|COL_NAME|
    +------+-----+--------+
    |    A1|  500|  VALUE1|
    +------+-----+--------+

请以任何其他方式提出建议。

1 个答案:

答案 0 :(得分:1)

 

这是另一种方法:

  • 使用ID列加入两个DataFrame。
  • 然后,对于每一行,创建一个新列,其中包含存在差异的列。
    • 使用pyspark.sql.functions.create_map()将此新列创建为键值对映射。 1
    • 地图的关键字是列名。
    • 使用pyspark.sql.functions.when(),将值设置为dataFrame1中的相应值(因为看起来这就是您想要的示例)如果存在差异两个DataFrame之间。否则,我们将值设置为None
  • 在地图列上使用pyspark.sql.functions.explode(),并使用pyspark.sql.functions.isnull()过滤掉差异不为空的所有行。
  • 选择所需的列并使用alias()重命名。

示例:

import pyspark.sql.functions as f
columns = [c for c in dataFrame1.columns if c != 'ID']
dataFrame1.alias('r').join(dataFrame2.alias('l'), on='ID')\
    .withColumn(
        'diffs',
        f.create_map(
            *reduce(
                list.__add__,
                [
                    [
                        f.lit(c),
                        f.when(
                            f.col('r.'+c) != f.col('l.'+c),
                            f.col('r.'+c)
                        ).otherwise(None)
                    ] 
                 for c in columns
                ]
            )
        )
    )\
    .select([f.col('ID'), f.explode('diffs')])\
    .where(~f.isnull(f.col('value')))\
    .select(
        f.col('ID').alias('KEY_ID'),
        f.col('value').alias('VALUE'),
        f.col('key').alias('COL_NAME')
    )\
    .show(truncate=False)
#+------+-----+--------+
#|KEY_ID|VALUE|COL_NAME|
#+------+-----+--------+
#|A1    |500  |VALUE1  |
#+------+-----+--------+

备注

1 作为*reduce(list.__add__, [[f.lit(c), ...] for c in columns])的参数的语法create_map()是一些有助于动态创建地图的python-fu。

create_map()期望偶数个参数 - 它假设每对中的第一个参数是键,第二个参数是值。为了按顺序放置参数,列表推导会为每次迭代生成一个列表。我们使用list.__add__将此列表列表缩减为平面列表。

最后,*运算符用于解压缩列表。

这是中间输出,可以使逻辑更清晰:

dataFrame1.alias('r').join(dataFrame2.alias('l'), on='ID')\
    .withColumn(
        'diffs',
        f.create_map(
            *reduce(
                list.__add__,
                [
                    [
                        f.lit(c),
                        f.when(
                            f.col('r.'+c) != f.col('l.'+c),
                            f.col('r.'+c)
                        ).otherwise(None)
                     ] 
                     for c in columns
                ]
            )
        )
    )\
    .select('ID', 'diffs').show(truncate=False)
#+---+-----------------------------------+
#|ID |diffs                              |
#+---+-----------------------------------+
#|A2 |Map(VALUE1 -> null, VALUE2 -> null)|
#|A1 |Map(VALUE1 -> 500, VALUE2 -> null) |
#+---+-----------------------------------+