我想在PySpark DataFrame中计算每行的最小值。
在NumPy中,它可以写
df.min(axis=1)
但我不知道如何在PySpark DataFrame中做同样的事情。
e.g。 我创建了数据帧(我的真实数据大约是1,000,000,000 * 1,000cols):
df = sqlContext.createDataFrame([(10, 10, 1 ), (200, 2, 20), (3, 30, 300), (400, 40, 4)], ("c1", "c2", "c3"))
+---+---+---+
| c1| c2| c3|
+---+---+---+
| 10| 10| 1|
|200| 2| 20|
| 3| 30|300|
|400| 40| 4|
+---+---+---+
我希望输出如下:
+---+---+---+---+
| c1| c2| c3|min|
+---+---+---+---+
| 10| 10| 1| 1|
|200| 2| 20| 2|
| 3| 30|300| 3|
|400| 40| 4| 4|
+---+---+---+---+