Question

我有一个Spark（2.x）DataFrame，其中包含以下列：

nodes_df.show()

------|------
node  | group
------|------
AAA   | 1
BBB   | 1
CCC   | 2

在nodes_df数据框上执行以下操作，会添加行号。

val nodes = nodes_df
  .withColumn("id",row_number().over(Window.orderBy("group")))
nodes.show()

node  | group
------|------
1     | 1
2     | 1
3     | 2

我有另一个数据框arcs_df

arcs_df.show()

node_from  | node_to | weight
-----------|---------|-------
AAA        | BBB     | 1
BBB        | CCC     | 1

我想知道，使用编码，如何将nodes中的相应节点编号分配给node_from中的node_to和arcs_df列值。

我想获得一个类似于以下内容的数据框

final_df.show()

node_from  | node_to | weight
-----------|---------|-------
1          | 2       | 1
2          | 3       | 1

Answer 1

请注意，下面没有使用编码，但它使用连接完全符合您的要求。让我们一起走过去。

必要的导入

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions.Window

创建nodes_df

val data1 = Seq(("AAA",1), ("BBB",1), ("CCC",2))
val nodes_df = data1.toDF("node", "group")
nodes_df.show()

+----+-----+
|node|group|
+----+-----+
| AAA|    1|
| BBB|    1|
| CCC|    2|
+----+-----+

创建节点

使用row_number和Window添加行号。我将orderBy从group更改为node因为您无法保证AAA是否为1而BBB为2，反之亦然，因为它们具有相同的group数字。

val nodes = nodes_df.withColumn("id",row_number().over(Window.orderBy("node")))
nodes.show()

+----+-----+---+
|node|group| id|
+----+-----+---+
| AAA|    1|  1|
| BBB|    1|  2|
| CCC|    2|  3|
+----+-----+---+

创建arcs_df

val data2 = Seq(("AAA","BBB",1), ("BBB","CCC",1))
val arcs_df = data2.toDF("node_from", "node_to", "weight")
arcs_df.show()

+---------+-------+------+
|node_from|node_to|weight|
+---------+-------+------+
|      AAA|    BBB|     1|
|      BBB|    CCC|     1|
+---------+-------+------+

执行联接以获得所需的输出

现在，我们基本上想知道如何将id从nodes映射到arcs_df中的节点。我通过使用两个连接实现了这一点。首先是从nodes到arcs_df，创建一个中间数据框first_join_df，用于说明目的。然后从nodes到first_join_df。加入后，我会删除我不关心的列，例如group，并将id列重命名为node_from / node_to（如果适用）。我以.select(...结束，以获得您要求的订单。看看，如果有什么不清楚，请告诉我。希望这有帮助！

val first_join_df = arcs_df.join(nodes, arcs_df.col("node_from") === nodes.col("node"), "leftouter")
  .drop("node_from", "node", "group")
  .withColumnRenamed("id", "node_from")
first_join_df.show()

+-------+------+---------+
|node_to|weight|node_from|
+-------+------+---------+
|    BBB|     1|        1|
|    CCC|     1|        2|
+-------+------+---------+

val second_join_df = first_join_df.join(nodes, first_join_df.col("node_to") === nodes.col("node"), "leftouter")
  .drop("node_to", "node", "group")
  .withColumnRenamed("id", "node_to")
  .select("node_from", "node_to", "weight")
second_join_df.show()

+---------+-------+------+
|node_from|node_to|weight|
+---------+-------+------+
|        1|      2|     1|
|        2|      3|     1|
+---------+-------+------+

如何在DataFrame中编码值？

1 个答案: