PySpark DataFrame在使用爆炸之前将字符串的列更改为数组

时间:2018-11-27 10:05:08

标签: pyspark apache-spark-sql

在我的spark DataFrame中,我有一个json格式的名为 event_data 的列,使用from_json读取后,我得到了以下架构:

root
 |-- user_id: string (nullable = true)
 |-- event_data: struct (nullable = true)
 |    |-- af_content_id: string (nullable = true)
 |    |-- af_currency: string (nullable = true)
 |    |-- af_order_id: long (nullable = true)

我仅需要此列中的af_content_id。此属性可以具有不同的格式:

  • 字符串
  • 整数
  • Int和Str的列表。例如['ghhjj23','123546',12356]
  • 无(有时event_data不包含af_content_id

    当格​​式为 List 时,我想使用explode函数为af_content_id中的每个元素返回新行。但是当我应用它时,我得到一个错误:

    from pyspark.sql.functions import explode
    
    def get_content_id(column):
        return column.af_content_id
    
    df_transf_1 = df_transf_1.withColumn(
        "products_basket", 
        get_content_id(df_transf_1.event_data)
    )
    
    df_transf_1 = df_transf_1.withColumn(
        "product_id",
        explode(df_transf_1.products_basket)
    )
    
      

    由于数据类型不匹配而无法解析'explode(products_basket)':函数explode的输入应为数组或映射类型,而不是StringType;

    我知道原因,这是因为字段af_content_id可能包含的类型不同,但是我不知道如何解决它。直接在列上使用pyspark.sql.functions.array()是行不通的,因为它变成了array并爆炸后不会产生预期的结果。

    重现我坚持的步骤的示例代码:

    import pandas as pd
    
    arr = [
        ['b5ad805c-f295-4852-82fc-961a88',12732936],
        ['0FD6955D-484C-4FC8-8C3F-DA7D28',['Gklb38','123655']],
        ['0E3D17EA-BEEF-4931-8104','12909841'],
        ['CC2877D0-A15C-4C0A-AD65-762A35C1',[12645715, 12909837, 12909837]]
    ]
    
    df = pd.DataFrame(arr, columns = ['user_id','products_basket'])
    
    df = df[['user_id','products_basket']].astype(str)
    df_transf_1 = spark.createDataFrame(df)
    

    我正在寻找一种将 products_basket 转换为唯一可能的格式的方法: Array ,以便当我应用explode时,它将包含一个每行的ID。

  • 1 个答案:

    答案 0 :(得分:1)

    如果您从以下数据帧开始:

    df_transf_1.show(truncate=False)
    #+--------------------------------+------------------------------+
    #|user_id                         |products_basket               |
    #+--------------------------------+------------------------------+
    #|b5ad805c-f295-4852-82fc-961a88  |12732936                      |
    #|0FD6955D-484C-4FC8-8C3F-DA7D28  |['Gklb38', '123655']          |
    #|0E3D17EA-BEEF-4931-8104         |12909841                      |
    #|CC2877D0-A15C-4C0A-AD65-762A35C1|[12645715, 12909837, 12909837]|
    #+--------------------------------+------------------------------+
    

    其中products_basket列是StringType

    df.printSchema()
    #root
    # |-- user_id: string (nullable = true)
    # |-- products_basket: string (nullable = true)
    

    您不能在explode上调用products_basket,因为它不是数组或映射。

    一种解决方法是删除所有前导/后方括号,然后在", "上分割字符串(逗号后跟一个空格)。这会将字符串转换为字符串数组。

    from pyspark.sql.functions import col, regexp_replace, split
    df_transf_new= df_transf_1.withColumn(
        "products_basket",
        split(regexp_replace(col("products_basket"), r"(^\[)|(\]$)|(')", ""), ", ")
    )
    
    df_transf_new.show(truncate=False)
    #+--------------------------------+------------------------------+
    #|user_id                         |products_basket               |
    #+--------------------------------+------------------------------+
    #|b5ad805c-f295-4852-82fc-961a88  |[12732936]                    |
    #|0FD6955D-484C-4FC8-8C3F-DA7D28  |[Gklb38, 123655]              |
    #|0E3D17EA-BEEF-4931-8104         |[12909841]                    |
    #|CC2877D0-A15C-4C0A-AD65-762A35C1|[12645715, 12909837, 12909837]|
    #+--------------------------------+------------------------------+
    

    正则表达式模式与以下任意一项匹配:

    • (^\[):字符串开头的方括号
    • (\]$):字符串末尾的右方括号
    • ('):任何单引号(因为您的字符串都被引用了)

    ,并将它们替换为空字符串。

    这假设您的数据在product_basket中不包含任何需要的单引号或方括号。

    split之后,新DataFrame的架构为:

    df_transf_new.printSchema()
    #root
    # |-- user_id: string (nullable = true)
    # |-- products_basket: array (nullable = true)
    # |    |-- element: string (containsNull = true)
    

    现在您可以致电explode

    from pyspark.sql.functions import explode
    df_transf_new.withColumn("product_id", explode("products_basket")).show(truncate=False)
    #+--------------------------------+------------------------------+----------+
    #|user_id                         |products_basket               |product_id|
    #+--------------------------------+------------------------------+----------+
    #|b5ad805c-f295-4852-82fc-961a88  |[12732936]                    |12732936  |
    #|0FD6955D-484C-4FC8-8C3F-DA7D28  |[Gklb38, 123655]              |Gklb38    |
    #|0FD6955D-484C-4FC8-8C3F-DA7D28  |[Gklb38, 123655]              |123655    |
    #|0E3D17EA-BEEF-4931-8104         |[12909841]                    |12909841  |
    #|CC2877D0-A15C-4C0A-AD65-762A35C1|[12645715, 12909837, 12909837]|12645715  |
    #|CC2877D0-A15C-4C0A-AD65-762A35C1|[12645715, 12909837, 12909837]|12909837  |
    #|CC2877D0-A15C-4C0A-AD65-762A35C1|[12645715, 12909837, 12909837]|12909837  |
    #+--------------------------------+------------------------------+----------+