Question

我想从两个已经正常工作的函数构建一个UDF。我正在尝试将md5哈希计算为现有Spark Dataframe的新列。

def md5(s: String): String = { toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8")))}
def toHex(bytes: Array[Byte]): String = bytes.map("%02x".format(_)).mkString("")

结构（我到目前为止）

val md5_hash: // UDF Implementation
val sqlfunc = udf(md5_hash)
val new_df = load_df.withColumn("New_MD5_Column", sqlfunc(col("Duration")))

不幸的是，我不知道如何将该功能实现为UDF。

Answer 1

为什么不使用内置的md5功能？

md5（e：列）：列计算二进制列的MD5摘要，并将该值作为32个字符的十六进制字符串返回。

然后您可以按如下方式使用它：

val new_df = load_df.withColumn("New_MD5_Column", md5($"Duration"))

您必须确保该列是二进制类型，因此如果它是int，您可能会看到以下错误：

org.apache.spark.sql.AnalysisException：由于数据类型不匹配，无法解析'md5（Duration）'：参数1需要二进制类型，但是，“Duration”属于int类型。;;

然后，您应该使用bin函数将类型更改为md5 - 兼容，即二进制类型。

bin（e：Column）：Column 一个表达式，它返回给定long列的二进制值的字符串表示形式。例如，bin("12")会返回"1100"。

解决方案如下：

val solution = load_df.
  withColumn("bin_duration", bin($"duration")).
  withColumn("md5", md5($"bin_duration"))
scala> solution.show(false)
+--------+------------+--------------------------------+
|Duration|bin_duration|md5                             |
+--------+------------+--------------------------------+
|1       |1           |c4ca4238a0b923820dcc509a6f75849b|
+--------+------------+--------------------------------+

你也可以将函数“链接”起来并在一个withColumn中进行转换和计算MD5，但我更喜欢将步骤分开，以防有问题要解决，并且中间步骤通常有帮助。

效果

您考虑使用内置函数bin和md5而不是自定义用户定义函数（UDF）的原因是您可以获得更好的性能因为Spark SQL完全可以控制，不会为内部行表示序列化和反序列化添加额外的步骤。

这不是这种情况，但仍然需要更少的导入和使用。

Answer 2

您可以使用名为udf

的md5函数

import org.apache.spark.sql.functions._
def toHex(bytes: Array[Byte]): String = bytes.map("%02x".format(_)).mkString("")
def md5 = udf((s: String) => toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8"))))

val new_df = load_df.withColumn("New_MD5_Column", md5(col("Duration")))

如何从Scala方法创建UDF（计算md5）？

2 个答案:

效果