如何创建数据类型为字符串的RDD?

时间:2018-01-27 18:18:15

标签: scala apache-spark

我有这行代码:

<scala> val quoteRDD = sc.parallelize("\"")
quoteRDD: org.apache.spark.rdd.RDD[Char] = ParallelCollectionRDD[0] at parallelize

如何让这个RDD保存&#34; \&#34;&#34;作为字符串数据类型? Spark说它是一个char,但我需要一个字符串数据类型。

你能帮助我改变这种变化吗?

由于

1 个答案:

答案 0 :(得分:1)

SparkContext.parallelize有以下签名

def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T] 

String可以代替(with implicit conversionsSeq[Char]

如果你真的想要创建单个元素RDD[String](对此没用多少,但我们称之为练习)添加Seq包装器:

val quoteRDD = sc.parallelize(Seq("\""))