我想根据数据框中现有的列子集创建一个新列(v5)。
示例数据框:
$parts[1]
提供示例数据框的另一个视图:
+---+---+---+---+
| v1| v2| v3| v4|
+---+---+---+---+
| 2| 4|7.0|4.0|
| 99| 0|2.0|0.0|
|189| 0|2.4|0.0|
+---+---+---+---+
由以下人员创建:
+---+---+---+---+
| v1| v3| v2| v4|
+---+---+---+---+
| 2|7.0| 4|4.0|
| 99|2.0| 0|0.0|
|189|2.4| 0|0.0|
+---+---+---+---+
最终,我要做的是创建另一列v5,该列是对应于v1和v2的最小值的值,忽略列中任何一列中存在的零和空值。假设v1为键,v3为值对。类似地,v2是键,v4是值。 例如,在第一行中:在v1和v2中,最小值属于v1,即2,因此v5列中的输出应为7.0 同样,在第二行:忽略v1&的零和空值。 v2,输出应为2.0
原始数据框有五列作为键,五列作为值 期望的输出:
rdd1 = sc.parallelize([
(2, 7.0, 4, 4.0),
(99, 2.0, 0, 0.0),
(189, 2.4, 0, 0.0)])
d = sqlContext.createDataFrame(rdd1, ('v1', 'v3','v2','v4'))
我试图通过udf中的最少功能来实现这一目标,无法实现这一目标。 我正在使用PySpark 1.6。任何帮助深表感谢。
答案 0 :(得分:2)
使用数据:
df = spark.createDataFrame([
(2, 4, 3.0, .0), (99, 0, 2.0, 0.0), (189, 0, 2.4, 0.0)],
("v1", "v2", "v3", "v4")
)
您只需将NULL
/ 0
替换为-Inf
或+Inf
。
from pyspark.sql.functions import col, lit, least, greatest, when
cols = ["v3", "v4"]
min_ = least(*[
when(col(c).isNull() | (col(c) == 0), float("inf")).otherwise(col(c))
for c in cols
]).alias("min")
max_ = greatest(*[
when(col(c).isNull() | (col(c) == 0), float("-inf")).otherwise(col(c))
for c in cols
]).alias("max")
选择:
df.select("*", min_, max_).show()
# +---+---+---+---+---+---+
# | v1| v2| v3| v4|min|max|
# +---+---+---+---+---+---+
# | 2| 4|3.0|7.0|3.0|7.0|
# | 99| 0|2.0|0.0|2.0|2.0|
# |189| 0|2.4|0.0|2.4|2.4|
# +---+---+---+---+---+---+