如何在特定位置向PySpark数据框添加多个空列

时间:2019-03-27 16:41:01

标签: apache-spark pyspark

我尝试了很多研究,但无法找到一种方法来执行并将多个列添加到PySpark Dataframe的特定位置。

我有一个看起来像这样的数据框:

Customer_id   First_Name   Last_Name  

我想在3个不同的位置添加3个空列,最终的数据框需要如下所示:

Customer_id Address First_Name Email_address Last_Name Phone_no

是否有一种简单的解决方法,例如可以在python上使用reindex的方法?

2 个答案:

答案 0 :(得分:1)

# Creating a DataFrame.
from pyspark.sql.functions import col, lit
df = sqlContext.createDataFrame(
    [('1','Moritz','Schulz'),('2','Sandra','Schröder')],
     ('Customer_id','First_Name','Last_Name')
)
df.show()
+-----------+----------+---------+
|Customer_id|First_Name|Last_Name|
+-----------+----------+---------+
|          1|    Moritz|   Schulz|
|          2|    Sandra| Schröder|
+-----------+----------+---------+

您可以使用lit()函数添加空列,创建后可以使用SQL的select对列进行重新排序。

df = df.withColumn('Address',lit(''))\
       .withColumn('Email_address',lit(''))\
       .withColumn('Phone_no',lit(''))\
       .select( 
           'Customer_id', 'Address', 'First_Name',
           'Email_address', 'Last_Name', 'Phone_no'
       )
df.show()
+-----------+-------+----------+-------------+---------+--------+
|Customer_id|Address|First_Name|Email_address|Last_Name|Phone_no|
+-----------+-------+----------+-------------+---------+--------+
|          1|       |    Moritz|             |   Schulz|        |
|          2|       |    Sandra|             | Schröder|        |
+-----------+-------+----------+-------------+---------+--------+

如@Pault用户所建议,这是一种更简洁明了的方法-

df = df.select(
    "Customer_id", lit('').alias("Address"), "First_Name",
    lit("").alias("Email_address"), "Last_Name", lit("").alias("Phone_no")
)
df.show()
+-----------+-------+----------+-------------+---------+--------+
|Customer_id|Address|First_Name|Email_address|Last_Name|Phone_no|
+-----------+-------+----------+-------------+---------+--------+
|          1|       |    Moritz|             |   Schulz|        |
|          2|       |    Sandra|             | Schröder|        |
+-----------+-------+----------+-------------+---------+--------+

答案 1 :(得分:0)

如果您想要更简洁,我会觉得更简短:

for col in ["mycol1", "mycol2", "mycol3", "mycol4", "mycol5", "mycol6"]:
    df = df.withColumn(col, F.lit(None))

然后您可以为订单选择相同的数组。