Question

正如我在Spark Dataframe中所知，多列的名称可以与下面的数据帧快照中显示的名称相同：

[
Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})),
Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=125231, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0047, 3: 0.0, 4: 0.0043})),
Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=145831, f=SparseVector(5, {0: 0.0, 1: 0.2356, 2: 0.0036, 3: 0.0, 4: 0.4132})),
Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=147031, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})),
Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=149231, f=SparseVector(5, {0: 0.0, 1: 0.0032, 2: 0.2451, 3: 0.0, 4: 0.0042}))
]

上面的结果是通过将数据框连接到自身来创建的，您可以看到4列包含两个a和f。

问题在于当我尝试使用a列进行更多计算时，我无法找到选择a的方法，我尝试df[0]和{{1两个都回到了我的误区之下：

df.select('a')

在Spark API中我是否可以再次将列与重复的名称区分开来？或者某种方式让我更改列名？

Answer 1

让我们从一些数据开始：

from pyspark.mllib.linalg import SparseVector
from pyspark.sql import Row

df1 = sqlContext.createDataFrame([
    Row(a=107831, f=SparseVector(
        5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})),
    Row(a=125231, f=SparseVector(
        5, {0: 0.0, 1: 0.0, 2: 0.0047, 3: 0.0, 4: 0.0043})),
])

df2 = sqlContext.createDataFrame([
    Row(a=107831, f=SparseVector(
        5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})),
    Row(a=107831, f=SparseVector(
        5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})),
])

有几种方法可以解决这个问题。首先，您可以使用父列明确引用子表列：

df1.join(df2, df1['a'] == df2['a']).select(df1['f']).show(2)

##  +--------------------+
##  |                   f|
##  +--------------------+
##  |(5,[0,1,2,3,4],[0...|
##  |(5,[0,1,2,3,4],[0...|
##  +--------------------+

您还可以使用表别名：

from pyspark.sql.functions import col

df1_a = df1.alias("df1_a")
df2_a = df2.alias("df2_a")

df1_a.join(df2_a, col('df1_a.a') == col('df2_a.a')).select('df1_a.f').show(2)

##  +--------------------+
##  |                   f|
##  +--------------------+
##  |(5,[0,1,2,3,4],[0...|
##  |(5,[0,1,2,3,4],[0...|
##  +--------------------+

最后，您可以通过编程方式重命名列：

df1_r = df1.select(*(col(x).alias(x + '_df1') for x in df1.columns))
df2_r = df1.select(*(col(x).alias(x + '_df2') for x in df2.columns))

df1_r.join(df2_r, col('a_df1') == col('a_df2')).select(col('f_df1')).show(2)

## +--------------------+
## |               f_df1|
## +--------------------+
## |(5,[0,1,2,3,4],[0...|
## |(5,[0,1,2,3,4],[0...|
## +--------------------+

Answer 2

我建议您更改join

的列名

df1.select('a as "df1_a", 'f as "df1_f")
   .join(df2.select('a as "df2_a", 'f as "df2_f"), 'df1_a === 'df2_a)

结果DataFrame将有schema

(df1_a, df1_f, df2_a, df2_f)

Answer 3

有一种比为所有要连接的列编写别名简单的方法：

df1.join(df2,['a'])

如果两个表中您要使用的键相同，则此方法有效。

请参阅 https://docs.databricks.com/spark/latest/faq/join-two-dataframes-duplicated-column.html

Answer 4

在深入了解Spark API之后，我发现我可以先使用alias为原始数据帧创建别名，然后我使用withColumnRenamed手动重命名别名上的每一列，这样做join而不会导致列名重复。

更多细节可参考以下Spark Dataframe API：

pyspark.sql.DataFrame.alias

pyspark.sql.DataFrame.withColumnRenamed

但是，我认为这只是一个麻烦的解决方法，并想知道我的问题是否有更好的方法。

Answer 5

您可以使用def drop(col: Column)方法删除重复的列，例如：

DataFrame:df1

+-------+-----+
| a     | f   |
+-------+-----+
|107831 | ... |
|107831 | ... |
+-------+-----+

DataFrame:df2

+-------+-----+
| a     | f   |
+-------+-----+
|107831 | ... |
|107831 | ... |
+-------+-----+

当我用df2加入df1时，DataFrame将如下所示：

val newDf = df1.join(df2,df1("a")===df2("a"))

DataFrame:newDf

+-------+-----+-------+-----+
| a     | f   | a     | f   |
+-------+-----+-------+-----+
|107831 | ... |107831 | ... |
|107831 | ... |107831 | ... |
+-------+-----+-------+-----+

现在，我们可以使用def drop(col: Column)方法删除重复列'a'或'f'，如下所示：

val newDfWithoutDuplicate = df1.join(df2,df1("a")===df2("a")).drop(df2("a")).drop(df2("f"))

Answer 6

这是我们如何在PySpark中以相同的列名称联接两个数据框的方法。

df = df1.join(df2, ['col1','col2','col3'])

如果在此之后执行printSchema()，则可以看到重复的列已被删除。

Answer 7

假设您要加入的DataFrame是df1和df2，并且您要在列'a'上加入它们，那么您有2个方法

方法1

df1.join（DF2， '一个'， 'left_outer'）

这是一种非常棒的方法，强烈建议使用。

方法2

df1.join（df2，df1.a == df2.a，'left_outer'）。drop（df2.a）

Answer 8

这可能不是最好的方法，但是如果要重命名重复的列（在连接之后），则可以使用此微型函数来进行重命名。

def rename_duplicate_columns(dataframe):
    columns = dataframe.columns
    duplicate_column_indices = list(set([columns.index(col) for col in columns if columns.count(col) == 2]))
    for index in duplicate_column_indices:
        columns[index] = columns[index]+'2'
    dataframe = dataframe.toDF(*columns)
    return dataframe

Answer 9

如果您的用例比Glennie Helles Sindholt的答案中所描述的更为复杂，例如您有其他一些/很少的非联接列名也相同，并且想要在选择最佳使用别名时加以区分，例如：

df3 = df1.select("a", "b").alias("left")\
   .join(df2.select("a", "b").alias("right"), ["a"])\
   .select("left.a", "left.b", "right.b")

df3.columns
['a', 'b', 'b']

Answer 10

如果两个表中只有键列相同，则尝试使用以下方法（方法1）：

left. join(right , 'key', 'inner')

而不是低于（方法2）：

left. join(right , left.key == right.key, 'inner')

使用方法1的优点：

“键”在最终数据框中仅显示一次
易于使用的语法

使用方法1的缺点：

仅在关键列方面提供帮助
在左联接的情况下，如果计划使用右键null计数，则将无法使用。在这种情况下，必须如上所述重命名密钥之一。

Answer 11

什么对我有用

import databricks.koalas as ks

df1k = df1.to_koalas()
df2k = df2.to_koalas()
df3k = df1k.merge(df2k, on=['col1', 'col2'])
df3 = df3k.to_spark()

除 col1 和 col2 之外的所有列，如果它们来自 df1，则在它们的名称后附加“_x”，如果它们来自 df2，则附加“_y”，这正是我所需要的。

Spark Dataframe区分具有重复名称的列

11 个答案: