将具有最接近值的列添加到PySpark Dataframe

时间:2019-10-11 05:35:32

标签: python dataframe pyspark pyspark-sql pyspark-dataframes

我有一个PySpark数据帧(例如df),该数据帧有两列(NameScore)。以下是数据框的示例:

+------+-----+
|  Name|Score|
+------+-----+
| name1|11.23|
| name2|14.57|
| name3| 2.21|
| name4| 8.76|
| name5|18.71|
+------+-----+

我有一个numpy数组(例如bin_array),其值与PySpark数据帧标题为Score的列中的数值接近。

以下是上述numpy数组:

bin_array = np.array([0, 5, 10, 15, 20])

我想比较列Score中每一行的值和bin_array中的值,并将最接近的值(从bin_array得到的值)存储在PySpark数据框。

下面是我希望新数据框(例如df_new)的外观。

+------+-----+------------+
|  Name|Score| Closest_bin|
+------+-----+------------+
| name1|11.23|      10.0  |
| name2|14.57|      15.0  |
| name3| 2.21|       0.0  |
| name4| 8.76|      10.0  |
| name5|18.71|      20.0  |
+------+-----+------------+

我有以下提到的函数,该函数为我提供了bin_array中最接近的值。当我用单个数字进行测试时,该功能可以正常工作。

def find_nearest(array, value):
    array = np.asarray(array)
    idx = (np.abs(array - value)).argmin()
    return float(array[idx])

在我的实际工作中,datafrmae中将有数百万行。 创建df_new的最有效方法是什么?

以下是我尝试用于创建用户定义函数(udf)和新数据框(df_new)的步骤。

closest_bin_udf = F.udf( lambda x: find_nearest(array, x) )
df_new = df.withColumn( 'Closest_bin' , closest_bin_udf(df.Score)  )

但是,尝试df_new.show()时出现错误。错误的一部分如下所示。

---------------------------------------------------------------------------
Py4JJavaError                             Traceback (most recent call last)
<ipython-input-11-685c9b7e25d9> in <module>()
----> 1 df_new.show()

/usr/lib/spark/python/pyspark/sql/dataframe.py in show(self, n, truncate, vertical)
    376         """
    377         if isinstance(truncate, bool) and truncate:
--> 378             print(self._jdf.showString(n, 20, vertical))
    379         else:
    380             print(self._jdf.showString(n, int(truncate), vertical))

您可以使用以下提到的步骤来创建上述数据框:

from pyspark.sql import *
import pyspark.sql.functions as F
import numpy as np

Stats = Row("Name", "Score")

stat1 = Stats('name1', 11.23)
stat2 = Stats('name2', 14.57)
stat3 = Stats('name3', 2.21)
stat4 = Stats('name4', 8.76)
stat5 = Stats('name5', 18.71)

stat_lst = [stat1 , stat2, stat3, stat4, stat5]
df = spark.createDataFrame(stat_lst)

df.show()

2 个答案:

答案 0 :(得分:2)

您可以使用ftw()中的bucketizer

pyspark.mllib

我仍在努力获取最近的垃圾箱,我将更新答案。

如果需要每个存储桶的数组值,则可以使用udf创建带有存储桶名称的新列

from pyspark.sql import *
import pyspark.sql.functions as F
import numpy as np

Stats = Row("Name", "Score")

stat_lst = [Stats('name1', 11.23) , Stats('name2', 14.57), Stats('name3', 2.21), Stats('name4', 8.76), Stats('name5', 18.71)]
df = spark.createDataFrame(stat_lst)

from pyspark.ml.feature import Bucketizer

"""
Bucketizer creates bins like 0-5:0, 5-10:1, 10-15:2, 15-20:3
As I see, your expected output wants the closest numbered bin, so you might 
have to change your buckets or the variable `t` below accordingly.
"""
bucket_list = [0, 5, 10, 15, 20]

bucketizer = Bucketizer(splits=bucket_list, inputCol="Score", outputCol="buckets")
df_buck = bucketizer.setHandleInvalid("keep").transform(df)

df_buck.show()

输出

from pyspark.sql.functions import udf
from pyspark.sql.types import *

t = dict(zip(range(len(bucket_list)), bucket_list))
udf_foo = udf(lambda x: t[x], IntegerType())
df_buck = df_buck.withColumn("score_bucket", udf_foo("buckets"))

编辑:更正得分桶:

>>> df_buck.show()

+-----+-----+-------+------------+
| Name|Score|buckets|score_bucket|
+-----+-----+-------+------------+
|name1|11.23|    2.0|          10|
|name2|14.57|    2.0|          10|
|name3| 2.21|    0.0|           0|
|name4| 8.76|    1.0|           5|
|name5|18.71|    3.0|          15|
+-----+-----+-------+------------+

现在输出符合预期:

# Not dynamic, but please try to figure out this business logic according to your use-case
df_buck = df_buck.withColumn("correct_buckets", F.when(df_buck.Score-df_buck.score_bucket > 5/2, F.col("score_bucket") + 5).otherwise(F.col("score_bucket"))).drop("buckets", "score_bucket")

答案 1 :(得分:2)

您也可以 func tableView(_ tableView: UITableView, didSelectRowAt indexPath: IndexPath) { if indexPath.section == 0 { for selectedIndexPath in tableView.indexPathsForSelectedRows ?? [] where selectedIndexPath.section == 0 { tableView.deselectRow(at: selectedIndexPath, animated: true) tableView.cellForRow(at: selectedIndexPath)?.accessoryType = .none } } tableView.cellForRow(at: indexPath)?.accessoryType = .checkmark } func tableView(_ tableView: UITableView, didDeselectRowAt indexPath: IndexPath) { tableView.cellForRow(at: indexPath)?.accessoryType = .none } ,尽管我建议您在扩展时测试速度和内存消耗

//In nominapp-right-side.html
<div>aaa</div>
  <div id="contenido1">
  <app-extra-co></app-extra-co>
  </div>
<div>asdsss</div>

//In extra-co.html
<div>abcdd</div>

//In app.component.html
<app-nominapp-right-side></app-nominapp-right-side>

输出

pandas_udf