在spark scala shell中并行化集合

时间:2017-04-19 01:08:53

标签: scala apache-spark

我尝试并行化元组并在下面得到错误。请告诉我这是下面语法中的错误 enter image description here

谢谢

1 个答案:

答案 0 :(得分:1)

方法并行化需要一个Seq。 seq中的每个项目都是一条记录。

scala> val rdd = sc.parallelize(Seq(("100", List("5", "-4", "2", "NA", "-1"))))
rdd: org.apache.spark.rdd.RDD[(String, List[String])] = ParallelCollectionRDD[2] at parallelize at <console>:24

scala> rdd.count
res4: Long = 1

在你的例子中,你需要添加一个Seq来包装Tuple,在这种情况下,RDD只有一个记录

<div style="max-width:600px;align-self:center;">
      <!--[if (gte mso 9)|(IE)]>
      <table width="600" align="center" cellpadding="0" cellspacing="0" border="0">
      <tr>
      <td style="padding:0;">
      <![endif]-->
        <table align="center" style="border-spacing:0;margin:0 auto;width:100%;max-width:600px;background-color:#ff000a">
          <tr>
            <td>
            content
            </td>
          </tr>
        </table>
      <!--[if (gte mso 9)|(IE)]>
      </td>
      </table>
      <![endif]-->
 </div>