Scala Spark中的任务不是可序列化错误

时间:2019-06-10 09:37:46

标签: scala apache-spark dictionary rdd

我有以下两个变量:

runat="server"

<label class="plan-icon plan-1-label" for="rbMM1" runat="server">
    <img src="images/frmMM1.png" alt="p1">
</label>

下面的代码通过完全外部联接将这两个变量联接在一起:

var rddPair1 : Array[(String, String)] = Array((0000003,杉山______ 26 F),
    (0000005,崎村______ 50 F), (0000007,梶川______ 42 F))

我收到如下错误:

var rddPair2 : Array[(String, String)] = Array((0000005,82 79 16 21 80),
    (0000001,46 39 8 5 21), (0000004,58 71 20 10 6), (0000009,60 89 33 18 6),
    (0000003,30 50 71 36 30), (0000007,50 2 33 15 62))

这是我想要的输出:

var emp = rddPair1.first._2.replaceAll("\\S", "*") //emp:String = ***** ** *
rddPair1.fullOuterJoin(rddPair2).map {
  case (id, (left, right)) =>
    (id,left.getOrElse(emp)+" "+ right)
}.collect()


1 个答案:

答案 0 :(得分:0)

该解决方案适用于两种环境。

致谢。