使用UDF的任务序列化错误

时间:2018-06-19 12:41:06

标签: scala apache-spark apache-spark-sql

我收到以下任务的任务序列化错误

def md5(s: String) = {
MessageDigest.getInstance("MD5").digest(s.getBytes).map("%02X".format(_)).mkString
}
val md5UDF = udf(md5 _)

contents_stat
  .withColumn("id", md5UDF($"URL"))

我认为问题出在MessageDigest。我可以在coalesce(1)之前做.withColumn("id", md5UDF($"URL")),但是还有其他方法可以在多台计算机上进行操作吗?

0 个答案:

没有答案