连接Apache Spark DataFrame

时间:2015-07-16 09:49:08

标签: sql apache-spark dataframe apache-spark-sql

我们如何连接Apache Spark DataFrame中的两列? 我们可以使用Spark SQL中的任何函数吗?

16 个答案:

答案 0 :(得分:133)

使用原始SQL,您可以使用CONCAT

  • 在Python中

    df = sqlContext.createDataFrame([("foo", 1), ("bar", 2)], ("k", "v"))
    df.registerTempTable("df")
    sqlContext.sql("SELECT CONCAT(k, ' ',  v) FROM df")
    
  • 在Scala中

    import sqlContext.implicits._
    
    val df = sc.parallelize(Seq(("foo", 1), ("bar", 2))).toDF("k", "v")
    df.registerTempTable("df")
    sqlContext.sql("SELECT CONCAT(k, ' ',  v) FROM df")
    

自Spark 1.5.0起,您可以对DataFrame API使用concat函数:

  • 在Python中:

    from pyspark.sql.functions import concat, col, lit
    
    df.select(concat(col("k"), lit(" "), col("v")))
    
  • 在Scala中:

    import org.apache.spark.sql.functions.{concat, lit}
    
    df.select(concat($"k", lit(" "), $"v"))
    

还有concat_ws函数,它将字符串分隔符作为第一个参数。

答案 1 :(得分:33)

以下是如何进行自定义命名

import pyspark
from pyspark.sql import functions as sf
sc = pyspark.SparkContext()
sqlc = pyspark.SQLContext(sc)
df = sqlc.createDataFrame([('row11','row12'), ('row21','row22')], ['colname1', 'colname2'])
df.show()

给出,

+--------+--------+
|colname1|colname2|
+--------+--------+
|   row11|   row12|
|   row21|   row22|
+--------+--------+

通过连接:

创建新列
df = df.withColumn('joined_column', 
                    sf.concat(sf.col('colname1'),sf.lit('_'), sf.col('colname2')))
df.show()

+--------+--------+-------------+
|colname1|colname2|joined_column|
+--------+--------+-------------+
|   row11|   row12|  row11_row12|
|   row21|   row22|  row21_row22|
+--------+--------+-------------+

答案 2 :(得分:15)

如果您想使用DF,可以使用udf根据现有列添加新列。

val sqlContext = new SQLContext(sc)
case class MyDf(col1: String, col2: String)

//here is our dataframe
val df = sqlContext.createDataFrame(sc.parallelize(
    Array(MyDf("A", "B"), MyDf("C", "D"), MyDf("E", "F"))
))

//Define a udf to concatenate two passed in string values
val getConcatenated = udf( (first: String, second: String) => { first + " " + second } )

//use withColumn method to add a new column called newColName
df.withColumn("newColName", getConcatenated($"col1", $"col2")).select("newColName", "col1", "col2").show()

答案 3 :(得分:15)

在Spark Scala中连接字符串列的一个选项是使用concat

必须检查空值。因为如果其中一列为null,则即使其他列之一确实有信息,结果也将为null。

使用concatwithColumn

val newDf =
  df.withColumn(
    "NEW_COLUMN",
    concat(
      when(col("COL1").isNotNull, col("COL1")).otherwise(lit("null")),
      when(col("COL2").isNotNull, col("COL2")).otherwise(lit("null"))))

使用concatselect

val newDf = df.selectExpr("concat(nvl(COL1, ''), nvl(COL2, '')) as NEW_COLUMN")

使用这两种方法,您将拥有一个NEW_COLUMN,该值是列的串联:来自原始df的COL1和COL2。

答案 4 :(得分:10)

concat(* cols)

v1.5及更高版本

将多个输入列连接到一个列中。该函数可用于字符串,二进制和兼容的数组列。

例如:new_df = df.select(concat(df.a, df.b, df.c))


concat_ws(sep,* cols)

v1.5及更高版本

类似于concat,但使用指定的分隔符。

例如:new_df = df.select(concat_ws('-', df.col1, df.col2))


map_concat(* cols)

v2.4及更高版本

用于合并地图,返回所有给定地图的并集。

例如:new_df = df.select(map_concat("map1", "map2"))


使用字符串concat运算符(||):

v2.3及更高版本

例如:df = spark.sql("select col_a || col_b || col_c as abc from table_x")

参考:Spark sql doc

答案 5 :(得分:6)

以下是为pyspark执行此操作的另一种方法:

#import concat and lit functions from pyspark.sql.functions 
from pyspark.sql.functions import concat, lit

#Create your data frame
countryDF = sqlContext.createDataFrame([('Ethiopia',), ('Kenya',), ('Uganda',), ('Rwanda',)], ['East Africa'])

#Use select, concat, and lit functions to do the concatenation
personDF = countryDF.select(concat(countryDF['East Africa'], lit('n')).alias('East African'))

#Show the new data frame
personDF.show()

----------RESULT-------------------------

84
+------------+
|East African|
+------------+
|   Ethiopian|
|      Kenyan|
|     Ugandan|
|     Rwandan|
+------------+

答案 6 :(得分:5)

当您不知道Dataframe中列的数量或名称时,建议您这样做。

val dfResults = dfSource.select(concat_ws(",",dfSource.columns.map(c => col(c)): _*))

答案 7 :(得分:4)

From Spark 2.3(SPARK-22771)Spark SQL支持串联运算符public void initialize() { // Server initialization code Runtime.getRuntime().exec("python .\python\Script.py"); }

例如;

||

答案 8 :(得分:2)

我们是否具有与以下过程相对应的Java语法

val dfResults = dfSource.select(concat_ws(",",dfSource.columns.map(c => col(c)): _*))

答案 9 :(得分:1)

在Spark 2.3.0中,您可以这样做:

spark.sql( """ select '1' || column_a from table_a """)

答案 10 :(得分:0)

使用sqlContext在pySpark中执行此操作的另一种方法...

#Suppose we have a dataframe:
df = sqlContext.createDataFrame([('row1_1','row1_2')], ['colname1', 'colname2'])

# Now we can concatenate columns and assign the new column a name 
df = df.select(concat(df.colname1, df.colname2).alias('joined_colname'))

答案 11 :(得分:0)

在Java中,您可以这样做来连接多个列。示例代码将为您提供一个场景以及如何使用它来更好地理解。

SparkSession spark = JavaSparkSessionSingleton.getInstance(rdd.context().getConf());
Dataset<Row> reducedInventory = spark.sql("select * from table_name")
                        .withColumn("concatenatedCol",
                                concat(col("col1"), lit("_"), col("col2"), lit("_"), col("col3")));


class JavaSparkSessionSingleton {
    private static transient SparkSession instance = null;

    public static SparkSession getInstance(SparkConf sparkConf) {
        if (instance == null) {
            instance = SparkSession.builder().config(sparkConf)
                    .getOrCreate();
        }
        return instance;
    }
}

上面的代码将col1,col2,col3连接起来,用“_”分隔,以创建一个名为“concatenatedCol”的列。

答案 12 :(得分:0)

实际上,有一些精美的内置抽象供您完成串联而无需实现自定义功能。由于您提到了Spark SQL,所以我猜您正在尝试通过spark.sql()将其作为声明性命令传递。如果是这样,您可以直接传递SQL命令,例如: SELECT CONCAT(col1, '<delimiter>', col2, ...) AS concat_column_name FROM <table_name>;

此外,从Spark 2.3.0起,您可以在以下行中使用命令: SELECT col1 || col2 AS concat_column_name FROM <table_name>;

其中,是您首选的定界符(也可以是空白),并且是您尝试读取的临时或永久表。

答案 13 :(得分:0)

我们也可以简单地使用SelectExpr

df1.selectExpr("*","upper(_2||_3) as new")

答案 14 :(得分:0)

就我而言,我想要一个 Tab 分隔行。

from pyspark.sql import functions as F
df.select(F.concat_ws('|','_c1','_c2','_c3','_c4')).show()

这就像黄油上的热刀一样。

答案 15 :(得分:-1)

val newDf =
  df.withColumn(
    "NEW_COLUMN",
    concat(
      when(col("COL1").isNotNull, col("COL1")).otherwise(lit("null")),
      when(col("COL2").isNotNull, col("COL2")).otherwise(lit("null"))))

注意:要使此代码正常工作,您需要在“ isNotNull”函数中放入括号“()”。 ->正确的是“ isNotNull()”。

val newDf =
  df.withColumn(
    "NEW_COLUMN",
    concat(
      when(col("COL1").isNotNull(), col("COL1")).otherwise(lit("null")),
      when(col("COL2").isNotNull(), col("COL2")).otherwise(lit("null"))))