我有一个Spark(2.x)DataFrame,其中包含以下列:
nodes_df.show()
------|------
node | group
------|------
AAA | 1
BBB | 1
CCC | 2
在nodes_df
数据框上执行以下操作,会添加行号。
val nodes = nodes_df
.withColumn("id",row_number().over(Window.orderBy("group")))
nodes.show()
node | group
------|------
1 | 1
2 | 1
3 | 2
我有另一个数据框arcs_df
arcs_df.show()
node_from | node_to | weight
-----------|---------|-------
AAA | BBB | 1
BBB | CCC | 1
我想知道,使用编码,如何将nodes
中的相应节点编号分配给node_from
中的node_to
和arcs_df
列值。
我想获得一个类似于以下内容的数据框
final_df.show()
node_from | node_to | weight
-----------|---------|-------
1 | 2 | 1
2 | 3 | 1
答案 0 :(得分:0)
请注意,下面没有使用编码,但它使用连接完全符合您的要求。让我们一起走过去。
必要的导入
import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions.Window
创建nodes_df
val data1 = Seq(("AAA",1), ("BBB",1), ("CCC",2))
val nodes_df = data1.toDF("node", "group")
nodes_df.show()
+----+-----+
|node|group|
+----+-----+
| AAA| 1|
| BBB| 1|
| CCC| 2|
+----+-----+
创建节点
使用row_number
和Window
添加行号。我将orderBy从group
更改为node
因为您无法保证AAA是否为1而BBB为2,反之亦然,因为它们具有相同的group
数字。
val nodes = nodes_df.withColumn("id",row_number().over(Window.orderBy("node")))
nodes.show()
+----+-----+---+
|node|group| id|
+----+-----+---+
| AAA| 1| 1|
| BBB| 1| 2|
| CCC| 2| 3|
+----+-----+---+
创建arcs_df
val data2 = Seq(("AAA","BBB",1), ("BBB","CCC",1))
val arcs_df = data2.toDF("node_from", "node_to", "weight")
arcs_df.show()
+---------+-------+------+
|node_from|node_to|weight|
+---------+-------+------+
| AAA| BBB| 1|
| BBB| CCC| 1|
+---------+-------+------+
执行联接以获得所需的输出
现在,我们基本上想知道如何将id
从nodes
映射到arcs_df
中的节点。我通过使用两个连接实现了这一点。首先是从nodes
到arcs_df
,创建一个中间数据框first_join_df
,用于说明目的。然后从nodes
到first_join_df
。加入后,我会删除我不关心的列,例如group
,并将id
列重命名为node_from
/ node_to
(如果适用)。我以.select(...
结束,以获得您要求的订单。看看,如果有什么不清楚,请告诉我。希望这有帮助!
val first_join_df = arcs_df.join(nodes, arcs_df.col("node_from") === nodes.col("node"), "leftouter")
.drop("node_from", "node", "group")
.withColumnRenamed("id", "node_from")
first_join_df.show()
+-------+------+---------+
|node_to|weight|node_from|
+-------+------+---------+
| BBB| 1| 1|
| CCC| 1| 2|
+-------+------+---------+
val second_join_df = first_join_df.join(nodes, first_join_df.col("node_to") === nodes.col("node"), "leftouter")
.drop("node_to", "node", "group")
.withColumnRenamed("id", "node_to")
.select("node_from", "node_to", "weight")
second_join_df.show()
+---------+-------+------+
|node_from|node_to|weight|
+---------+-------+------+
| 1| 2| 1|
| 2| 3| 1|
+---------+-------+------+